过去的推荐,是推荐相关内容,强调推荐结果的相关性,但机器不知道什么是相关与不相关。现在,我们把相关数字化了,不再强调一定要解决相关性,而是解决点击率、阅读的时长、转发、收藏、投诉,这些能被数字度量,机器能理解,不断去优化。优化的过程,需要建立一个持续不断的数字化的闭环的反馈,因为世界变化太快,如果不能持续不断地反馈,很快就会落伍。 3 算法 最直接的办法是雇佣厉害的算法科学家,但这是非常稀缺的人才。 早期我们在 BAT 做 AI 应用,我们需要搭建上百人以上 AI 的科学家团队,因为有太多事情要做,机器学习、算法,几十项,甚至更多。但科学家太稀缺了,因此科学家必须把这些能力封装在平台内。我们希望一个业务人员,再加上有一定数据思维基础,经过平台培养一两个月的数据工程师,就能达到过去算法科学家的效果。 因此,我们需要做很多工作,比如,需要做支持万亿级别特征量的机器模型的学习,但现在主流的深度学习模型是万级别左右的输入,对于多媒体来说,atv,这不是太大问题。因为他们我们面对的是图像,只要考虑像素内的问题。但对于企业经营,我们遇到几百张,上千张表的时候,如果只能支持万级别的变量,首先就会丢数据。我们从 2013 年开始,不断设计更宽的模型。我们 2013 年设计出的模型,Google 在去年也发表了类似的论文。现在我们也在发展更好的算法,比如,Deep Sparse Model。 4 降门槛 机器学习很大的门槛,在于要做数据清洗,特征变换,归一化,特征组合,j2直播,离散化这些特征工程,这对科学家来说是基本功,但对 App 的开发人员来说,门槛太高。因此需要使这些事情自动化,所以我们在用不一样的方法,比如线性分型的算法,用分型技术让线性的模型做更好的特征工程。用 TreeNet 算法,数和网络结合的算法,让我们更自动地去做特征工程,希望把门槛降低。 我们内部找公司内的普通员工做测试,比如行政、HR,财务、销售等,让他们用我们新的不需要做特征工程的算法,去解决我们客户的问题。发现他们能接受这样的机器学习,因为这是把数据放到算法里跑一跑,出来一个模型,上线去应用,很多都能理解。但他们不能理解,特征变换、离散化、特征组合是什么。他们只要不做这些,他们就能做机器学习。 测试结果发现,70% 的普通员工都能达到我们公司的算法科学家,用开源工具做出来的效果。这是很大的进步,因为为整个领域增加了大量的 AI 开发者。 5 Inferential 因为 AI 不是简单问题。在 PB 级大数据情况下,如果超过 20 台机器,不在一个机柜,任意两台机器不能假设他们的传输速度是一样的;如果超过 100 台机器,不能假设跑完所有程序的时候,你的机器每次跑代码的时候,都会宕机,超过一千台机器,甚至任务分配都会非常不均衡,有的机器是空闲的,有的机器会很忙,这些都是需要解决的。 我们也在设计为机器学习设计的算法框架,原来我们认为,分布式框架已经很成熟,但对机器学习来说,分布式框架的差距是很大的。虽然数据量的增加,是平方级性能的开销,但我们一定要降到随着数据量的增加,线性的开销。 最后,我们把它们封装到一个平台,让机器学习变得简单。 (责任编辑:本港台直播) |