码报:第四范式戴文渊：构建AI的商业大脑，需要5大核(2)_本港台直播_J2开奖直播

过去的推荐，是推荐相关内容，强调推荐结果的相关性，但机器不知道什么是相关与不相关。现在，我们把相关数字化了，不再强调一定要解决相关性，而是解决点击率、阅读的时长、转发、收藏、投诉，这些能被数字度量，机器能理解，不断去优化。优化的过程，需要建立一个持续不断的数字化的闭环的反馈，因为世界变化太快，如果不能持续不断地反馈，很快就会落伍。

算法

最直接的办法是雇佣厉害的算法科学家，但这是非常稀缺的人才。

早期我们在 BAT 做 AI 应用，我们需要搭建上百人以上 AI 的科学家团队，因为有太多事情要做，机器学习、算法，几十项，甚至更多。但科学家太稀缺了，因此科学家必须把这些能力封装在平台内。我们希望一个业务人员，再加上有一定数据思维基础，经过平台培养一两个月的数据工程师，就能达到过去算法科学家的效果。

因此，我们需要做很多工作，比如，需要做支持万亿级别特征量的机器模型的学习，但现在主流的深度学习模型是万级别左右的输入，对于多媒体来说，atv，这不是太大问题。因为他们我们面对的是图像，只要考虑像素内的问题。但对于企业经营，我们遇到几百张，上千张表的时候，如果只能支持万级别的变量，首先就会丢数据。我们从 2013 年开始，不断设计更宽的模型。我们 2013 年设计出的模型，Google 在去年也发表了类似的论文。现在我们也在发展更好的算法，比如，Deep Sparse Model。

降门槛

机器学习很大的门槛，在于要做数据清洗，特征变换，归一化，特征组合，j2直播，离散化这些特征工程，这对科学家来说是基本功，但对 App 的开发人员来说，门槛太高。因此需要使这些事情自动化，所以我们在用不一样的方法，比如线性分型的算法，用分型技术让线性的模型做更好的特征工程。用 TreeNet 算法，数和网络结合的算法，让我们更自动地去做特征工程，希望把门槛降低。

我们内部找公司内的普通员工做测试，比如行政、HR，财务、销售等，让他们用我们新的不需要做特征工程的算法，去解决我们客户的问题。发现他们能接受这样的机器学习，因为这是把数据放到算法里跑一跑，出来一个模型，上线去应用，很多都能理解。但他们不能理解，特征变换、离散化、特征组合是什么。他们只要不做这些，他们就能做机器学习。

测试结果发现，70% 的普通员工都能达到我们公司的算法科学家，用开源工具做出来的效果。这是很大的进步，因为为整个领域增加了大量的 AI 开发者。

Inferential

因为 AI 不是简单问题。在 PB 级大数据情况下，如果超过 20 台机器，不在一个机柜，任意两台机器不能假设他们的传输速度是一样的；如果超过 100 台机器，不能假设跑完所有程序的时候，你的机器每次跑代码的时候，都会宕机，超过一千台机器，甚至任务分配都会非常不均衡，有的机器是空闲的，有的机器会很忙，这些都是需要解决的。

我们也在设计为机器学习设计的算法框架，原来我们认为，分布式框架已经很成熟，但对机器学习来说，分布式框架的差距是很大的。虽然数据量的增加，是平方级性能的开销，但我们一定要降到随着数据量的增加，线性的开销。

最后，我们把它们封装到一个平台，让机器学习变得简单。

(责任编辑：本港台直播)