本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】专栏 | 第四范式先知平台的整体架构和实现细节

时间:2016-11-17 19:06来源:118论坛 作者:开奖直播现场 点击:
在不久之前的一场演讲中, 第四范式联合创始人、研发副总裁胡时伟,以及「先知」平台的核心计算框架 GDBT 的开创者涂威威对先知平台的整体架构与实现细节进行了详细的介绍。在

在不久之前的一场演讲中,第四范式联合创始人、研发副总裁胡时伟,以及「先知平台的核心计算框架 GDBT 的开创者涂威威对先知平台整体架构实现细节进行了详细的介绍。在 12 月份,机器之心也将联合第四范式举办一场线下分享活动,atv,感兴趣的读者可点击阅读原文报名。活动介绍附在文后。

。今年 10 月,先知荣获了中国智能科学界最高「2016 年吴文俊人工智能科学技术一等奖」。在正在举行的乌镇世界互联网大会上,先知将正式开放公有云版。定位于部署在公有云上的机器学习平台,先知公有云版有望帮助互联网公司零门槛地拥有人工智能技术,解决人工智能在不同行业企业、特别是互联网公司应用的问题。这也是第四范式为降低 AI 入场门槛而做出的较大突破。

近期,先知主创团队在大数据杂谈上做了一个比较详细的系统介绍。主讲人是第四范式联合创始人、研发副总裁胡时伟,以及「先知」平台的核心计算框架 GDBT 的开创者涂威威。这也是第四范式团队首次对外披露设计、研发、部署先知过程中的一些经验,探讨机器学习从系统和工程方面的优化方向。

具体分享内容如下,接下来主要从如下几个方面来讲述:

为什么人工智能系统需要高维大规模机器学习模型

训练高维大规模机器学习模型算法的工程优化

机器学习产品的架构实践

首先先从人工智能发展说起,人工智能并不是一个最近出现的概念,早在 60 年代就有著名学者曾经预言二十年内机器将能够完成人能做到的一切工作。到今天我们又听到说 20 年之内,一大半的工作岗位将被机器人替代。那么 60 年代到今天发生的最大的区别是什么?这其中发生了两个重大的变化,第一个是计算能力的突飞猛进,今天的手机一个核的计算能力就足以秒杀当年的超级计算机。第二个是我们拥有了大数据,TB 级的数据存储、处理在今天已经不再困难,而 20 年前,GB 级的硬盘才刚刚兴起。

因此我们说今天人工智能=机器学习+大数据,那么什么样是好的人工智能呢?这里引入一个「VC 维」的概念。「VC」维是 1960 年代到 1990 年代由 Vapnik 及 Chervonenkis 建立的一套统计学习理论。VC 维反映了函数集的学习能力,VC 维越大则模型或函数越复杂,学习能力就越强。之前,统计建模曾经进入过一个误区,就是去追求经验风险最小化,什么意思呢?就是说我希望建立一个模型,在给定的样本上不要有误差,这样感觉非常好,但是往往这么一来,在实际的预测中非常糟糕,这是为什么呢?是因为采用了一些 VC 维很高的模型,atv,虽然函数集学习能力是强了,但是由于数据不够,所以导致置信风险变大产生了一些类似过拟合的情况,最后这个模型还是不好用。

但是今天我们进入了大数据时代,样本的数量,包括样本的特征丰富程度有了极大提升,这就又带来了提升 VC 维的新机会。我们经常说经验主义害死人,过去的建模就是害怕经验主义,所以呢就把这个大脑变笨,降低 VC 维,使得模型更有效。但是今天的大数据情况下,可以通过补充更多的阅历(数据),来避免经验主义,那么一个阅历丰富的聪明的人,自然是要比一个笨的记不住东西的人要好的。因此我们说大数据人工智能时代,提升 VC 维变成了一个好的人工智能系统的关键因素。

那么机器学习中的高维度从何而来?传统方法只能利用可以放在特征矩阵这个平面中的数据,对于立体的数据,多维度的数据,因为它们多不是数字,所以传统机器学习模型无法处理,只能选择舍弃。但在实际工业应用中,这类非数字化的数据所包含的信息,往往信息价值很高,比如它可能对个性化推荐很有影响,可能对泛化处理有帮助。为了能成分利用这些数据,我们对特征矩阵外的立体的数据通过切片等算法进行变换,使得变换后的数据成为特征矩阵的一部分,同时还对不同特征之间进行交叉组合等操作,这样特征矩阵的每一行的列数就从原始数据的列数,变成了每一行都是一个巨大(比如 2 的 64 次方)的向量,形成超高维度的模型。

高维度模型真正的意义何在?通过对原来立体数据切片处理,可以使得某些过去只能有简单线性表达的数据,比如年龄等,获得更接近真实情况的细腻体现;此外,原来机器学习不能利用的非数字、没有排序关系的数据,比如姓名等,也可以发挥其价值所在。举个例子,在个性化推荐的场景中,体现个性化信息的数据之间通常是不可比的,比如,我们先只考虑热度、推荐序号和用户 ID 三个变量,其中用户 ID 这个变量就是传统机器学习模型所不能利用的,只有通过将这个数据切片处理,获得一个高维度模型,才可以真正将用户信息这个数据发挥出价值。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容