从CES(国际消费类电子产品展览会 International Consumer Electronics Show)的进展来看,Google现在确实在把语音交互这事儿搞砸,而越来越变成一家很能折腾但不太能干成事的公司。Google在公有云上不太可能超过Amazon了,自动驾驶上折腾了好多年但看起来挂的可能性非常大,而在语音交互上Google很可能会再一次败给Amazon。 语音助手上的大PK 今年CES上最有意思的事情是语音交互型产品泛滥,从英伟达到联想,各大巨头对此达成了共识,纷纷杀入。这里面比较核心的两家分别是Amazon和Google,前者的代表产品是Echo和内置的语音助手Alexa,后者则是Google Home和内置的语音助手Google Assistant。 正常来讲不管从那个维度来看都是Google具有足够的优势,有技术、有资源、有积累,但具体看下来Google实际上落后甚远,甚至可能难以挽回。 要想看懂语音交互这方向的走势,那么需要深度理解与之相关的产品和技术的本质特征。 Echo这类产品的核心特征是多层技术高度融合(声学、语音识别、语义、搜索、内容)。其中声学是软硬件的分割点,向下关联产品ID以及内部结构,向上影响语音识别。而语义之后的部分则是纯软件与内容。 对于Amazon和Google这样的公司,它们先天把自己定义为做生态和平台的公司,所以其核心一定不是Echo这个硬件产品本身,而是背后的语音助手比如Alexa,因为只有Alexa才代表一种新的生态。 Alexa这种语音助手很多人觉得是像Android一样的操作系统,但实际上看成是一个操作系统+超级App更为合适。 要把Alexa这样的语音助手安装到各种硬件里事实上有两种途径: 一种是纯软的方式。我就把语音助手做好,不管谁要用装进去就可以了。这种模式下在技术层次上最多需要下探到语音识别,核心则是语义和对话。这模式最明显的参照是搜索引擎。 一种则是软硬融合的方式。我做一个标杆型的硬件产品,然后再把硬件产品中的助手开放出去。这模式最明显的参照是Android这样的操作系统。 纯互联网公司会倾向于第一种方式,因为这种模式最轻,而后一种模式要组织生产和销售,还要下探到声学这样的层次,无疑重很多。 但模式一的核心问题有两个: 语音交互很难在现有平台上启动(手机、平板、电脑),而直接把近场上的语音交互迁移到远场上效果会很差,谁来解决落地过程中各种坑坑洼洼的问题? 不知道硬件上的需求,如何设计出与各种硬件适配的API,如何知道怎么提供对于硬件厂商最为便利的方案?把这种苦活累活完全下放给各个硬件厂商去自己摸索吗? Google开放ASR和NLP的API其实已经许久了,但从CES的结果来看,显然Alexa这种系统整合型的方案更受欢迎,它即解决了与下层硬件的适配问题,也解决了后端内容整合问题。 拔高一层来看整件事情,我们可以讲做语音助手这事,事实上有这样几个关键控制点: 做标杆型的硬件产品,但不与已有用户习惯对冲。直接讲就是新品类必须避开手机和PAD,否则一定会被覆盖掉。 丰富后端内容,对于语音助手而言,硬件、音乐甚至打电话都是内容。内容需要从头部开始逐渐填充长尾内容。引申开来就是要把Alexa和Echo这个产品分割开来,让它后面的东西尽可能的多。 树立技术优势,在这里技术既包含深度学习这样的纯算法也包含声学等与物理紧密相连的领域。当内容没多到一定程度的时候,前端技术(声学和语音识别)要比语义更重要。因为它们更影响速度和精度。 亚马逊做对了什么? 在上一节提到的几个点上亚马逊几乎每个都做对了。 第一亚马逊没回避硬件的烦难,花了四五年打造了Echo,这样一来亚马逊就掌握了一个很难被超越的制高点。 这看着很诡异,但事实就会这样,否则的话Google直接把Google Assistant开放出来就行了,根本不需要自己打造什么Google Home。但实际上硬件和背后Assistant的耦合程度远高于搜索和浏览器,搜索和浏览器的耦合程度事实上是便利不便利,直播,但Alexa和前端的硬件的耦合程度则牵涉好不好用的问题。而Google则是迫于Echo的压力才开始做Google Home。 第二亚马逊在Echo获得初步成功后迅速开始分离Echo和Alexa,具体动作就包括完SDK(ASK&AVS)的文档和案例,成立Alexa Fund,积极寻找战略合作伙伴等。最终结果之一就是所谓的7000项技能。7000个技能是非常可怕的事情,完全足以覆盖技术和某些内容上的劣势。这就好比淘宝上商家数一旦超过某个阈值,QQ流量再大也搞不定了。 (责任编辑:本港台直播) |