如果扎克伯格不放弃这事,而是持续对此进行改善,那下面会发生什么?他可能会掉到坑里面。他用了150小时做到上面那程度,但很可能再花1500小时,效果并没有实质性改善。 整个语音交互事实上依赖于三层:声学的信号处理(麦克风阵列+声学算法),语音识别(SR),自然语言理解(NLU)。扎克伯格演示时的问题核心原因不在于自然语言理解(语义),而在于声学与语音识别。声学和语音识别的关系可以大致类比成耳朵和大脑,如果声学部分的信号很差,那相当于耳朵不好使,基本语音识别的算法再怎么好也不可能把命令是什么弄清楚。 扎克伯格如果要优化效果,那么基本方法有下面几类: 一种可能是扎克伯格觉得真实场景下的信号优化(声学、硬件等)也没什么,找几个人做做就完了,如果这么想 Facebook 可能会自己组建个硬件、声学团队来做Echo Dot那样的终端。但这么做很可能短期就不会有下次演示了。因为让语音识别匹配前端声学信号是容易的,但反过来让牵涉硬件和物理的声学来适应语音识别则基本会做挂。而在互联网公司里通常后端偏算法的势力会大,所以很容易走到前面那条路上去(这事情国内至少做挂了两拨人了)。国内的大公司很容易走上这条路,但从分工习惯来看,国外公司更愿意在技术栈上卡住特定位置,非自己核心的部分会更愿意开放给其它人,所以扎克伯格这么干的可能性不高,除非他觉得自己也得搞Amazon Echo那种产品了。 一种可能是扎克伯格和深度学习科学家思路一致,认为所有东西都可以通过深度学习在云端算法层面来解决。这种思路下,就会通过深度学习来做降噪等信号层面的工作,用算法挑战各种物理层面的问题。如果走上这条路,那估计短期也不会有下次演示了,因为他碰到的问题并非单纯的降噪问题,回声抵消、Beamforming、降噪、声源定向这些东西是关联在一起的,指望深度学习短期突破这些问题更像科研上的一种设想而非工程上的一种实践。“设想”是说可以成为一种探索的思路,但结果完全没谱,高度不确定,相当于把不确定性引入产品开发之中。 一种可能是扎克伯格走下一步的时候想的很清楚,知道自己这类公司的能力边界,因此把这部分开放出去,让专业的人做专业的事。物理的事情归物理,算法的事情归算法,这样的话就会满世界找声学和远场语音识别供货商,但这反倒是最快的一种方式。 不知道扎克伯格具体会走那条路,如果是最后一种,我们声智科技这样的公司应该会很快收到消息。 打破原子与比特的边界 扎克伯格这件事情事实上也提供了一个跳出来看AI的机会。 下图是 Jarvis 的系统架构图:
一般来讲,从产品体验上可以看出技术水平,从架构图则可以看出来认知上的差异。 根据上图,显然在扎克伯格这里 Jarvis 被理解成了一个命令控制型的系统,但感知这环节被忽略了,尽管扎克伯格自己在文章里也提到感知上下文是非常关键的一个环节(Understanding context is important for any AI)。 这种理解在互联网企业那里很可能非常有代表性,但问题就在于感知恰恰是打造一个初级的Jarvis这样的系统时最难的环节。因为感知总是要打穿原子和比特的边界。Language Processing、Speech Recognition、Face Recognition 总是立刻可用的,atv,只受限于算法的发展程度和数据,但感知部分不是这样,不单要算法行,器件、生产都要行才能有好的结果。比如说麦克风阵列,你算法再好但MEMS麦克风不给力,那你一样抓瞎。如果要说的短板的话,在深度学习突破后,感知这一环节才是真的短板。 这就涉及到这次AI突破的一个深层次问题:这次的AI起于深度学习的突破,但真要想创造价值并不能停步在深度学习本身。关键原因就在于其AI创造价值的链条比较长,必须打破软硬的边界,补全整个链条,价值才会体现出来。几乎我们所有能想到的大机会都是这样,语音交互(需要打穿声学和识别边界),自动驾驶(打穿计算机视觉、雷达、机械控制的边界)等。这部分难度通常是被忽略了,似乎是有几个深度学习专家问题就可以搞定一切问题。后者不是不行,但要限定在特定类别的事情上,比如图普科技做的鉴黄等。正是同时做好软硬这部分在拉长投资-回报的周期。投资和创业如果对此没有自己的判断,那准备的耐心可能就不够。 小结 近来和AI各方面的人(创业者、投资人、科学家、媒体)接触下来,发现大家基本都在思考这样两个问题: 第一,本次AI浪潮会不会和前两次一样很快冷下来? 第二,落地点到底在那里,究竟还要多久? (责任编辑:本港台直播) |