5 月 27 日,机器之心主办的为期两天的全球机器智能峰会(2017/0529/237307.html">GMIS 2017)在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致辞,他表示:「我个人的看法是再过几年,我们 90% 的工作是人工智能提供的,就像我们今天大部分工作是机器提供的一样。我们知道人工智能会给我们提供一个更美好的未来。」大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。
下午,第四范式联合创始人、首席研究科学家陈雨强发表了主题为《机器学习模型:宽与深的大战》的演讲,他不仅探讨分享了学界中的深度模型和工业界中的宽度模型,同时还分析了这两种模型的各自特点。以下是该演讲的主要内容: 工业界需要可扩展的机器学习系统 人工智能的兴起是计算能力、机器学习以及分布式计算发展的结果。在实际的工业界之中,我们需要一个可扩展的机器学习系统(Scalable Machine Learning System),而不仅仅是一个可扩展系统(Scalable System)。
第一点,数据处理的能力随机器的增加而增加,这是传统的可扩展。第二点,智能水平和体验壁垒要随着业务、数据量的增加而同时增加。这个角度的 Scalable 是很少被提到的,但这个层面上的可扩展性才是人工智能被推崇的核心原因。 比如,过去建立竞争壁垒主要通过业务创新或是通过借助新的渠道(比方说互联网)提升效率。在这样的方式中,由于产品本身相对容易被抄袭,那么资本投入、运营与渠道是关键。但随着数据的增加与 AI 的普及,现在有了一种新的方式,就是用时间与数据创造壁垒。可以看出,由人工智能产生的竞争壁垒是不断循环迭代而得到提升、更容易拉开差距的高墙。 可扩展的机器学习系统需要高 VC 维 我们知道 VC 维理论,该理论形式化地描述了机器学习算法对复杂函数拟合的能力。在机器学习中,VC 维度越高,模型越复杂,所需要的数据量也越多。
如上图所示,因为过去的数据不大,训练损失函数在不断下降,而测试损失函数则先下降再上升。因此有小数据量的模型要避免过拟合,VC 维就不能太高。因此我们需要控制 VC 维,以让训练数据的测试损失和训练损失同时下降。 但随着如今数据量剧增,我们发现低 VC 维模型效果并不理想,但高的 VC 维模型的性能在不断上升。因此,在我们有越来越多数据时,要关心的是欠拟合而不是过拟合,要关心的是怎样提高 VC 维让模型更加聪明。 因此,如果要成功在工业界使用人工智能,VC 维是非常重要的问题。 如果我们已经有很多数据,那么提升 VC 维的方法有两条:一种是从特征提升,一种是从模型提升。我们把特征分为两类:一类特征叫宏观特征,比如描述类特征如年龄、统计类特征如整体的点击率、或整体的统计信息;另一类为微观特征,最典型的是 ID 类的特征,每个人都有特征,每个物品也有特征,人和物品组合也有特征。相应的模型也分为两类,一部分是简单模型如线性模型,另一类是复杂模型如深度学习模型。因此,我们可以引出工业界机器学习四个象限的概念。 模型 X 特征,工业界机器学习的四个象限
如上图所示,第一象限是简单模型加宏观特征,在现在的工业界比较难以走通,很难得到极致化的优化效果。这个象限内,要解决的问题是怎样找出特征之间的关系与各自的统计特性。 第二象限是简单模型加复杂特征,最成功的典型案例是 Google AdWords。Google AdWords 占 Google 70% 以上的收入,开奖,Google 的展示广告也是用的这样的技术,占了 Google 大概剩下的 20% 左右的收入。 第三象限是复杂模型、宏观特征典型的应用,比如 Bing ads,2013 年他们提出 BPR(Bayesian Probit Regression)来 Model 每个特征的置信度。 (责任编辑:本港台直播) |