“对当时的头条来说,时效性是非常重要的。除了在技术上设计一个追求极致的时效性以及极致的性能与规模的机器学习系统之外,我还做了一件很重要的事情,是设计了很多机制,让这些人工智能技术能用在头条的各个产品线之中。”陈雨强举了个例子,人工智能或者机器学习的算法其实是一个发动机引擎,机制是传动的齿轮,怎样把引擎的动力以最有效的方式传动到各个部件,这是机制所做的事情。所以除了需要关心技术之外,还要关心产品与机制创新。 “第四范式”是什么呢? 从今日头条离开后进入创业模式,陈雨强面对的不再是一个领域的多个问题,而是更多的业务、更多的行业、更多的问题——金融、电信、互联网等各行各业、包含营销、获客、风控、推荐、排序等各种各样的问题。 至此,AI的工业化之路越来越酷了。从大公司到创业,最大的决定因素在于戴文渊、陈雨强他们都坚信认为自己的专业——机器学习,是人工智能领域中一个需要更加长期、持续投入的细分领域。“我当时出来创业最大的一点决心,是找到了一个不能不去做的事情。”陈雨强说。 在人工智能、机器学习领域成为风口之前,在风未起时就进入,现在看来是一个非常对的选择。2014年,这对于人工智能领域来说,是变化来临之年,谷歌宣布收购了DeepMind,曾有意收购DeepmMind的Facebook也紧随谷歌、百度,搭建起人工智能实验室。 戴文渊迅速组织起团队,由一群技术理想主义者着手打造“第四范式”。对于陈雨强来说,工作虽曾有变化,但挖掘深度学习在工业界中的应用潜力,做深做大“做最重要的事”,这样的方向从来没有改变过。 不少人,在听说“第四范式”时都难免好奇,为什么是第四范式,而不是第三或者第五呢?一家公司的名字,就像一个家庭的孩子一样,起名往往都能透露出愿景和期待。 “第四范式”,得名于图灵奖得主、关系数据库的鼻祖Jim Gray生前的最后一次演讲。他将人类科学的发展定义成为四个范式:第一范式,以记录和描述自然现象为主的实验科学,比如钻木取火;第二范式,利用模型归纳总结过去记录的现象,比如牛顿三定律和麦克斯韦方程等为代表的理论科学;第三范式,科学计算机的出现,诞生了模拟复杂现象的计算科学;第四范式则是,通过收集大量的数据,让计算机去总结规律的数据密集型科学。 创业初期,其实除了少数大的互联网企业和学院派人士,很少有人了解机器学习或者人工智能为企业服务之类,但是大家都对“大数据”略知一二。“人工智能=大数据+机器学习,如果说大数据是原材料、是米;机器学习是工具、是电饭煲;那么人工智能就是白米饭。”陈雨强深知数据和人工智能的关系,大数据挖掘的需求加速了机器智能的技术成熟,第四范式最初都是和客户介绍如何进行数据挖掘、如何通过技术精准匹配。 2015年初,第四范式获得了来自某全国性股份制商业银行的第一笔订单,一个信用卡交易分期项目。利用数千万的信用卡交易分期营销数据,他们用AI更精准确定哪些客户有更大几率去做分期付款,最终帮助客户提升了60%。现在,客户已经把多个业务都通过AI技术来升级。 可以说,大数据与机器智能相伴而生,这是一个计算无处不在,软件定义一切、数据驱动发展的新时代。但是,直到AlphaGo打败李世石这个科技界的“黑天鹅”事件出现以后,人工智能成为了街头巷尾议论的话题,第四范式才真正被“理解”。这时,在人工智能领域有近十年研究经验的陈雨强对AI的成功也有了更深的理解。 如果一个AI 要成功的话总结起来三点,要关注技术、要关注业务、要关注人。一方面是技术,计算资源和大数据方面的支持;一方面是业务,边界要清晰,业务有反馈;另一方面是人,包括科学家,包括应用到场景需要和人打交道。
机器学习、强化学习与迁移学习 (责任编辑:本港台直播) |