2016 年毫无疑问是人工智能再次站在风口之上的一年,不管从业者们多么不愿意承认这一点,但一个不为人为意志所转移的事实就是:这个行业正在出现泡沫。究其原因,更多的,还是因为作为一个专有名词,其概念意义远远大于实际意义。这也导致众多标榜「人工智能」的公司或产品,不过是一种「挂羊头卖狗肉」的举动。 当下所谓人工智能,更多的局限在机器学习算法领域的狭义人工智能,主要围绕在语音、图像等领域。这几年来,在深度学习的帮助下,语音识别领域取得巨大进步和突破,甚至已经超过了人类识别。下图是投资人 在 2016 年 12 月提供的一个数字: 而在 2017 年第一期《经济学人》杂志中,这个老牌政治经济杂志将语音技术作为新一期的封面并配以大篇幅的报道,封面的文字则是:Now,We Are Talking。 语音行业的快速发展也让阿里云 iDST 技术总监初敏博士深有感触。作为在该领域深耕多年的研究者和从业者,初敏博士敏锐注意到语音给整个互联网带来的巨大影响。其实早在去年 11 月的一次演讲中,初敏博士就表示,这次行业发展的势头和之前不太一样,她的原话是:「这次好像真的是到风口上了。」 正是在这样的大背景下,我们和初敏博士详细聊了聊语音,尤其是语音交互的技术、产业和生态,从中也勾勒出一个摆脱所谓「移动互联网下半场」的路线图:不管是巨头还是创业者,只有站在语音技术发展的前沿,结合具体的业务场景,将技术与应用结合起来,才有可能开拓新的市场。 1. 当我们在谈论语音时我们在谈论什么? 某种意义上,「语音」、「人工智能」这两个词汇无法让公众产生多大的感知。但和人工智能相对没有学术概念的词相比,语音其实是有明确意义的。初敏介绍说,传统定义中,语音主要指语音识别、语音合成、声纹识别等。 这几年来,语音的概念开始局限在某些特定领域,比如在很多物联网设备上的语音入口、智能手机上的语音助手等等。这些特定领域在初敏看来,可以简单理解为「狭义语音技术」,包括回声消除、语音唤醒、麦克风阵列拾音、远场识别等。 至于当下以交互的角度谈语音技术,则更像是一种「广义语音技术」的概念,既有语音和文字的互相转换,也涵盖了自然语言理解、对话管理的范畴。初敏博士特别强调了一点:数据服务。「(这是)非常重要但还没有被充分重视的一层:数据服务。语音交互的主要目的是获取信息和完成任务。这背后需要跟大量已有或者将会出现的数据服务打通。」 另一份来自 Gartner 的展现了全球联网设备的规模:2020年,全球联网设备数量将达260 亿台,市场规模将达 1.9 万亿美元。如此海量的联网设备之间需要快速建立连接,语音成为最为方便的一种方式。下图是「互联网女皇」Mary Meeker 2016 年的一张预测图: 2. 语音的价值在于从入口到生态 今年 CES 期间,风险投资 a16z 合伙人 Benedict Evans 发了一条: Last year every damn thing at CES had a camera. This year will probably be a microphone. Evans 发出如此感叹的缘由就在于,atv,尽管今年亚马逊 Alexa(亚马逊的语音技术) 并没有参展,但由于Alexa 与众多智能硬件公司合作,从而也被频繁提及。 硅谷资深博客 Ben Thompson 更是直言:Alexa 就是亚马逊的操作系统,这个操作系统的唯一交互方式就是语音。 而假如 Alexa 这样的语音交互模式具备了操作系统的雏形,那么最关键的环节是什么呢? 初敏博士的答案是两个字:生态。「这个事情靠一家企业(即便是巨无霸)单打独斗是很难获得巨大成功的,一定需要把生态建起来。大家都在赛跑。」 这就不难理解为何亚马逊会在 CES 上频繁与各个智能设备厂商「眉目传情」,某种意义上,「智能设备不能简单看成硬件市场,更应该看成云的入口,是把人跟云上服务快速连接起来的通道。」 (责任编辑:本港台直播) |