第四象限,复杂模型和微观特征,现在还是热门研究的领域,它最难的一点是模型的规模实在太大。这种模型可能会有极其巨量的参数。虽然数据很多,但如此多的参数还是很难还是难以获得的。所以怎么解决模型的复杂问题、正则化问题,还是目前研究的重要方向。 如何沿着模型优化? 沿着模型优化主要由学术界主导。他们主要的研究是非线性模型,总结起来有三种方法:核函数、提升方法和深度神经网络。提升方法和深度神经网络现在非常流行,提升方法最经典的是梯度提升树(GBDT),而深度神经网络也在很多行业产生了颠覆性的变化。大约十年前,核函数也是很流行的。借助核函数,支持向量机(SVM)有了异常强大的非线性能力。 对于工业界中的具体问题,基于思考或观察得到新的假设,加入新的模型、结构,以获得更多的参数,这是工业界优化这一项限的步骤。 因此,通过机器学习首先,观察数据;第二,找到规律;第三,根据规律做模型的假设;第四,对模型假设中的参数用数据进行拟合;第五,把拟合的结果用到线上,看看效果怎么样。这是模型这条路在工业界上优化的方法。 如何沿特征优化? 特征优化主要是工业界主导的。就像刚才提到的,Google 使用了上千亿的特征,百度也使用了上千亿的特征,这些特征都是从最细的角度描述数据,模型也是简单粗暴。 沿模型优化这条路的主要特点是什么?模型一定是分布式的,同时工程挑战是非常大的。针对这些难点,很多会议上都在研究如何高效并行,以及如何保证高效并行的时候快速收敛。ASP、BSP 等模型和同步、异步的算法,都是为了保证高效分布式的同时能快速收敛。 应为线性模型理论较为成熟,工业界对模型本身的优化相对没有那么多,其更主要的工作是针对具体的应用提取特征。之所以有那么多特征,是因为我们对所有观察到的微观变量都进行建模。 所以,当我们不能给出比较好的数据假设时,不知道为什么产生突变时,可以更多的依赖数据,用潜在参数建模可能性,通过数据学到该学的知识。 宽度还是深度? 那么沿着宽度走好还是沿着深度走好?其实并没有那个模型在所有情况下都更好,换一句话说机器学习没有免费的午餐(No Free-Lunch):不存在万能模型。
没有免费午餐定理,即所有的机器学习都是一个偏置,这个偏置是代表你对于数据的假设,偏置本身不会有谁比谁更好这样的概念。如果使用更多的模型假设,就需要更少的数据,但如果模型本身越不符合真实分布,风险就越大。当然我们也可以使用更少的模型假设,用数据支持模型,但你需要更多的数据支持,更好的特征刻画,然后表示出分布。总结起来对于我们工业界来说,机器学习并没有免费的午餐,一定要做出对业务合适的选择。 宽与深的大战
追求更高的 VC 维有两条路:一个是走宽的、离散的那条路,即 Google AdWords 的道路;也可以走深的那条路,比如深度学习。这就是深与宽的大战,因为宽与深在工业界都有非常成功的应用案例,坚信宽与深的人很长一段时间是并不互相理解的。坚信深度学习、复杂模型的人认为,宽的道路模型太简单了,20 年就把所有的理论研究透彻,没有什么更多的创新,这样的技术不可能在复杂问题上得到好的结果。坚信宽的模型的人,攻击深度模型在某些问题上从来没有真正把所有的数据都用好,从来没有发挥出数据全部的价值,开奖,没有真正的做到特别细致的个性化。的确深度模型推理做得好,但个性化、记忆方面差很多。 宽与深的模型并没有谁比谁好,这就是免费午餐定理:不同业务使用不同的模型,不同的模型有不同的特点。我们对比一下宽度模型与深度模型:宽度模型有比较准确的记忆能力,深度模型有比较强的推理能力;宽度模型可以说出你的历史,在什么情况下点过什么广告,深度模型会推理出下次你可能喜欢哪一类东西。宽度模型是依靠层次化特征进行泛化的,有很强的解释性,虽说特征很多,但是每一个预估、为什么有这样的预估、原因是什么,可以非常好的解释出来;深度模型是非常难以解释的,你很难知道为什么给出这样的预估。宽度模型对平台、对工程要求非常高,需要训练数据非常多、特征非常多;深度模型对训练数据、对整个模型要求相对较低一点,但现在也是越来越高的。还有一个非常关键的区别点,如果你是 CEO、CTO,你想建一个机器学习的系统与团队,这两条路有非常大的区别。宽度模型可以比较方便与统一的加入业务知识,所以优化宽度模型的人是懂机器学习并且偏业务的人员,把专业的知识加入建模,其中特征工程本身的创新是提升的关键;如果走深度模型,模型的创新是关键,提升模型更关键来自于做 Machine Learning 的人,他们从业务获得知识并且得到一些假设,然后把假设加入模型之中进行尝试。 (责任编辑:本港台直播) |