本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

第四范式陈雨强:万字深析工业界机器学习最新(3)

时间:2017-07-25 19:48来源:天下彩论坛 作者:本港台直播 点击:
所以,如果想让AI在工业界中产生更大的影响,真正的落地,我们需要的是一个完整的人工智能应用平台,让人以更低的成本用上人工智能。从这个角度上

所以,如果想让AI在工业界中产生更大的影响,真正的落地,我们需要的是一个完整的人工智能应用平台,让人以更低的成本用上人工智能。从这个角度上看,阻碍AI普及的并不是现在的算法效果不够好,而是现在算法的门槛太高,研发新的平台以及算法降低门槛的重要性大于优化算法效果的重要性,我们期望用低的门槛获得好的效果。

如何解决特征工程

如何降低这些门槛呢?这里分享一下第四范式的成果。首先特征工程是工业界应用AI的巨大的难关。特征工程的目标是针对于某个模型找出与要解决问题相关的关键属性,现在也有一些开源的项目尝试解决特征工程,下图就列出了Spark 2.2官方文档中包含的特征工程算法。那么,针对不同的业务、不同的模型,这些算子就足够我们低门槛建模了吗?

第四范式陈雨强:万字深析工业界机器学习最新

如果想要做好特征工程,需要对将要使用的机器学习算法有深入了解才行,随便地将所有的特征全部扔进去,现有的算法并不能很好地处理。有时候,不同的算法为了达到同一个目标,使用特征工程与做法会完全不一样。以新闻推荐为例,我们要做两种特征,来提高推荐新闻的点击率。一种是一阶特征,描述的是那些用户直接喜欢的内容。另一种是二阶特征,描述的的是个性兴趣的扩展。比如说喜欢大数据的人,很有可能对机器学习也感兴趣。

在下面的示意中,小人代表一个用户(User),小人下面表示通过统计得到的用户画像,也就是用户的历史兴趣点(User_Topic)。右边是3篇新闻,每个新闻有一个话题(News_Topic)。

第四范式陈雨强:万字深析工业界机器学习最新

那么,如何在之前提到的“简单模型(线性模型)+微观特征”这条路添加一阶特征呢?如图左上角所示,我们只需要简单的将用户与新闻话题做组合特征(User-New_Topic笛卡尔积)就可以了。在这条路上,我们并不需要任何的用户画像统计,因为最后每篇新闻点击或者不点击就已经可以训练出“User-News_Topc”组合特征的权重与偏好了。这种方式下,在线上服务的时候,所有的信息都是推荐时能获取的,但是为了用户兴趣更新及时,我们需要把模型的时效性做到非常高。

回头看,如何在之前提到的“复杂模型(非线性模型)+宏观特征”这条路添加一阶特征呢?如图左下角所示,由于是宏观特征,我们需要将不同的话题变成单个特征,一种做法是通过一阶逻辑的判断“本篇新闻的话题是否属于用户历史的兴趣”加入。这种方式下,在线上服务的时候,我们除了需要推荐实时信息之外,还需要实时维护用户历史的兴趣点,但是模型本生的更新频率就不用那么快了。毕竟,为了达到推荐时效性目标,要么特征静态、模型特别实时,要么特征实时、模型静态不变。

那么,如果我们要学习二阶特征呢?对于线性模型(如右上角所示),我们也需要用到用户的历史兴趣点,将用户的历史喜好与文章的话题进行组合(User_Topic-New_Topic),这样模型就可以学到历史上喜欢什么样话题的人还会喜欢什么样的新闻话题,达到二阶迁移的目标。对于非线性模型(如右下角所示),我们要做的将原先的一阶逻辑判断(可以认为是个Identity矩阵)变成一个二阶状态转移矩阵,通过历史统计得知不同话题间喜欢转换的情况,推算出一个不在用户现有兴趣点中的文章话题是不是用户喜欢的。

第四范式陈雨强:万字深析工业界机器学习最新

更进一步的,我们总结对比一下,对于前文提到的机器学习四象限中的第2,3,4象限的模型,我们做特征工程的方式差距非常大。对于一阶特征,如果是线性模型加精细特征,直接做组合,不用统计;如果做非线性模型是需要统计的,同时用包含关系来做;如果用非线性模型不需要用包含关系,模型本身会进行特征组合。如果做二阶特征,每种方法都需要使用统计特征,但适用方式也各不相同,比方说非线性模型宏观特征,你需要三个相关的信息和很多统计才可以做到。

这个例子说明了一个道理,如果要做好的特征工程,需要非常多的针对模型的定制化的优化,仅用现在的工具还完全不够,完全需要靠人的经验与判断。因此,研发自动特征工程的算法就变得尤为重要。自动特征工程是一个比较难的问题,在学术界与工业界都在积极地研究这个问题,这里跟大家分享自动工程的三个方向,隐式特征组合(如NN,FM),半显式特征组合(如GBDT)与显式特征组合(显式特征叉乘)。

隐式特征组合

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容