wzatv:【组图】GMIS 2017 | 第四范式首席研究科学家陈雨强：机器学习模型，宽与深的大战(2)_本港台直播_J2开奖直播

第四象限，复杂模型和微观特征，现在还是热门研究的领域，它最难的一点是模型的规模实在太大。这种模型可能会有极其巨量的参数。虽然数据很多，但如此多的参数还是很难还是难以获得的。所以怎么解决模型的复杂问题、正则化问题，还是目前研究的重要方向。

如何沿着模型优化？

沿着模型优化主要由学术界主导。他们主要的研究是非线性模型，总结起来有三种方法：核函数、提升方法和深度神经网络。提升方法和深度神经网络现在非常流行，提升方法最经典的是梯度提升树（GBDT），而深度神经网络也在很多行业产生了颠覆性的变化。大约十年前，核函数也是很流行的。借助核函数，支持向量机（SVM）有了异常强大的非线性能力。

对于工业界中的具体问题，基于思考或观察得到新的假设，加入新的模型、结构，以获得更多的参数，这是工业界优化这一项限的步骤。

因此，通过机器学习首先，观察数据；第二，找到规律；第三，根据规律做模型的假设；第四，对模型假设中的参数用数据进行拟合；第五，把拟合的结果用到线上，看看效果怎么样。这是模型这条路在工业界上优化的方法。

如何沿特征优化？

特征优化主要是工业界主导的。就像刚才提到的，Google 使用了上千亿的特征，百度也使用了上千亿的特征，这些特征都是从最细的角度描述数据，模型也是简单粗暴。

沿模型优化这条路的主要特点是什么？模型一定是分布式的，同时工程挑战是非常大的。针对这些难点，很多会议上都在研究如何高效并行，以及如何保证高效并行的时候快速收敛。ASP、BSP 等模型和同步、异步的算法，都是为了保证高效分布式的同时能快速收敛。

应为线性模型理论较为成熟，工业界对模型本身的优化相对没有那么多，其更主要的工作是针对具体的应用提取特征。之所以有那么多特征，是因为我们对所有观察到的微观变量都进行建模。

所以，当我们不能给出比较好的数据假设时，不知道为什么产生突变时，可以更多的依赖数据，用潜在参数建模可能性，通过数据学到该学的知识。

宽度还是深度？

那么沿着宽度走好还是沿着深度走好？其实并没有那个模型在所有情况下都更好，换一句话说机器学习没有免费的午餐（No Free-Lunch）：不存在万能模型。

wzatv:【组图】GMIS 2017 | 第四范式首席研究科学家陈雨强：机器学习模型，宽与深的大战

没有免费午餐定理，即所有的机器学习都是一个偏置，这个偏置是代表你对于数据的假设，偏置本身不会有谁比谁更好这样的概念。如果使用更多的模型假设，就需要更少的数据，但如果模型本身越不符合真实分布，风险就越大。当然我们也可以使用更少的模型假设，用数据支持模型，但你需要更多的数据支持，更好的特征刻画，然后表示出分布。总结起来对于我们工业界来说，机器学习并没有免费的午餐，一定要做出对业务合适的选择。

宽与深的大战

wzatv:【组图】GMIS 2017 | 第四范式首席研究科学家陈雨强：机器学习模型，宽与深的大战

追求更高的 VC 维有两条路：一个是走宽的、离散的那条路，即 Google AdWords 的道路；也可以走深的那条路，比如深度学习。这就是深与宽的大战，因为宽与深在工业界都有非常成功的应用案例，坚信宽与深的人很长一段时间是并不互相理解的。坚信深度学习、复杂模型的人认为，宽的道路模型太简单了，20 年就把所有的理论研究透彻，没有什么更多的创新，这样的技术不可能在复杂问题上得到好的结果。坚信宽的模型的人，攻击深度模型在某些问题上从来没有真正把所有的数据都用好，从来没有发挥出数据全部的价值，开奖，没有真正的做到特别细致的个性化。的确深度模型推理做得好，但个性化、记忆方面差很多。

宽与深的模型并没有谁比谁好，这就是免费午餐定理：不同业务使用不同的模型，不同的模型有不同的特点。我们对比一下宽度模型与深度模型：宽度模型有比较准确的记忆能力，深度模型有比较强的推理能力；宽度模型可以说出你的历史，在什么情况下点过什么广告，深度模型会推理出下次你可能喜欢哪一类东西。宽度模型是依靠层次化特征进行泛化的，有很强的解释性，虽说特征很多，但是每一个预估、为什么有这样的预估、原因是什么，可以非常好的解释出来；深度模型是非常难以解释的，你很难知道为什么给出这样的预估。宽度模型对平台、对工程要求非常高，需要训练数据非常多、特征非常多；深度模型对训练数据、对整个模型要求相对较低一点，但现在也是越来越高的。还有一个非常关键的区别点，如果你是 CEO、CTO，你想建一个机器学习的系统与团队，这两条路有非常大的区别。宽度模型可以比较方便与统一的加入业务知识，所以优化宽度模型的人是懂机器学习并且偏业务的人员，把专业的知识加入建模，其中特征工程本身的创新是提升的关键；如果走深度模型，模型的创新是关键，提升模型更关键来自于做 Machine Learning 的人，他们从业务获得知识并且得到一些假设，然后把假设加入模型之中进行尝试。

wzatv:【组图】GMIS 2017 | 第四范式首席研究科学家陈雨强：机器学习模型，宽与深的大战

(责任编辑：本港台直播)