极客公园:现在有说法说「国内的人工智能产业链将更为明显地分化为以 BAT 为代表的生态平台、以科大讯飞和格灵深瞳为代表的垂直技术解决平台等。」您怎么看人工智能公司的几种不同类型的路线选择?第四范式目前正在走哪种路线? 杨强:第四范式走了第三条路。第四范式不像 BAT 或者电商那么宽泛,要打造自己的生态;同时也没有只追求纵向的专业领域突破,而忽略了横向的业务延展。第四范式在一个垂直领域扎得很深,了解这个领域的痛点和背景,然后基于实战经验与案例来提供一个领域内的通用平台,同时这个平台又在该领域做得比较成功,提供的算法都是特别适用于领域里的。比如大规模的自动特征工程就是一个例子,用很少的人工就可以自动获取大量特征,然后就自动进行机器学习,最终实现人工智能在个性化推荐、精准营销等业务场景中的应用。所以可能用第三个路径来描述第四范式可能更恰当。 极客公园:怎么看目前人工智能技术在 C 端的应用情况,比如智能家居? 杨强:智能家居一直以来都是大家关心的题目,工业界诸如小米、联想等企业都试图在这个领域有所突破。我觉得技术上应该问题不大,但还没有抓住很好的场景。好场景的要求是,可以提供高质量的数据,数据要持续不断地更新,而且场景要一直向客户提供反馈,总的来说就是不断地提供数据和数据反馈标注。所以,如果能够找到一个好的场景,有这样的数据,更大的突破应该是早晚的事。但除非找到这样的场景,否则只能做一个好的框架,没有数据和服务,智能家居很难取得重大突破。 极客公园:您个人这两年在国内参加了很多人工智能方面的创业项目,相比纯粹的科研工作,您会觉得参与企业的创业对这个行业更有帮助吗? 杨强:我觉得这两者一定要结合起来,实验室的工作和接触大规模的工业问题是不可分割的。在实验室工作、参加学术会议或者拜访一些其它的实验室,可以关注整个业界的发展;在工业界,可以解除人工智能在应用上所产生的很多实际问题。现在这个时代离不开数据,在人工智能领域,实验室和工业的结合是双向有益的。 下附杨强教授于 2016 腾讯网媒体高峰论坛现场的演讲内容: 大家好!今天我很高兴能够跟大家分享一下我的一些看法,尤其是人工智能的到来和媒体会怎么发展的技术路径。 今年 AlphaGo 是一个大事件,我们现在要问,AlphaGo 为我们带来了什么?从技术和商业上、从未来的发展方向上,能不能从 AlphaGo 的发展看出一些端倪? 首先我们看到在过去人工智能的发展经历了几次大事件。首先是 IBM 深蓝、沃森为我们带来了很大的惊喜,告诉我们计算能力真的是很重要。有了这种计算能力,我们就能够比人搜索的要深,比你回答的要快,能够回答一些尝试性的任务。
但是 AlphaGo 又加了一条,告诉我们原来数据也很重要。不仅如此,高质量的数据更加重要。什么是高质量的数据呢?其实创造 AlphaGo 这个系统是需要几个条件的: 首先就是能够很清楚的认识到那些是我们的目标。这些目标要清楚到什么程度呢?要用数学公式写下来。 其次要清楚认识到数据来自于哪里。这不是一天就可以做好的,比如 AlphaGo 是经历了十几年的时间,才获得了如此高质量的大量的数据。 同时对问题的了解要深入到特征的层面,要从一个问题能够抽取出大量的特征。 最后是要有非常合适的自学习的方法来做这件事。 下面我们来看一下今天具体感兴趣的题目是 A.I. 能够为媒体带来什么,说起媒体就离不开文本和自然语言的分析,什么是文本呢?文本就是小说、新闻这些,我们可以把这些数据认为是非结构化的数据,是一个非常有意思的数据,不枯燥,但是对于机器来说却是一个难题,因为没有结构,是需要我们人去理解它才会有结构。 今天有一种技术叫机器阅读,阅读的成果是中间的理解、表达,这个表达叫做隐式表达。 (责任编辑:本港台直播) |