今年互联网女皇的报告发布了,相比去年用了10%的篇幅大谈语音交互,今年的报告对于语音交互似乎冷静了许多。不过我们仍然能看到,报告指出,来自Google Assistant的数据显示,接近70%的请求都是自然语言、对话方式发出的,机器学习已经驱动Google的语音识别率从2013年的不足80%,提升至如今的95%(国内大部分平台公布的识别率是97%)。 我们可以看一看去年的报告,其中提到,快速简便、个性化的语音交互很可能代替人们的双手,成为人机交换的新模式。解放了双手和视觉,能将“在线”这一概念延伸的更远。
可让人困惑的是,语音交互应用,尤其是中文语音交互真的离我们那么近了吗? 面对Siri,让她来段beatbox之外,好像也没有什么好说的。看到报告中的数据后,我破天荒的长按home键,看到屏幕上那行“请问需要什么帮助”后竟然没由来的感到一丝尴尬,这感觉和我面对不熟的亲戚时搜肠刮肚找话题的感觉一样。 我知道语音助手们能帮我做很多事,搜索、打电话、发信息、叫外卖……可我就是开不了那个口。 我相信有很多人跟我一样,除了在不方便听微信语音时点个长按识别或者开车时指挥一下XX地图之外,宁愿死守着手指与键盘老一套的交互方式。这究竟是怎么一回事? 语音交互真有这么厉害? 首先我们来看看,语音交互已经走到哪一地步了。 简单来说,语音交互的关键在于两点,一个是语音识别准确率,另一个则是自然语言处理(你经常能看到的NLP)水平。 语音识别将声音转换成波形文件,对声音进行分帧,再从每一帧中提取包含内容信息的多维向量,这一过程就是声学特征提取。提取特征后再将特征组成音素(单词发音的构成,类似于音标,对应汉语则是声母、韵母)。 而有了音素之后,还需要大量语音数据,对应声纹帧和声学特征利用隐马尔可夫模型、Viterbi算法考虑语音与音素的匹配程度、音素之间转换的概率再加上可以解决多音字问题的语音模型,最终形成一个有足够多节点的网络,识别语音时,只需要找到与声音最匹配的路径就好。 计算能力加强、数据量增大,加上深层学习神经网络将计算机视觉应用于语音波形文件之上,语音识别准确率提高几乎是必然的结果。方言、多音字、语音语速个性化这些问题也正在被一一解决中,例如科大讯飞就表示自己可以利用“基于说话人编码和i-vector的深度神经网络自适应算法,以完全不需要人工干预的方式率先在产品中解决了深度学习框架下的说话人自适应问题。” 而NLP则是一个大话题,和语音交互有关的自然是其中语音处理的部分。从理解到生成反馈,其中涉及到大量有关机器学习的复杂问题,这里就不再赘述。我们只需要知道的是,计算能力、数据量、机器学习三个关键指标的发展,已经极大的提高了语音交互的应用性。吴恩达曾经说过,“人们很快会习惯与机器流畅交流的时光,而忘记以前是如何与机器交互的”,如此可以看出,语音交互似乎已经可以代替如今人机交互中的很大一部分了。
语音交互应用范畴:先让速记下岗 语音交互已经在我们生活中的哪些场景开始应用了?目前来说,与其称之为“彻底的改变交互”,不如说“更多的代替人工”。最典型的例子就是在很多发布会上看到语音识别速记,其准确率已经和人工齐平甚至超过了人工。 语料库累积不够、识别能力和理解能力有限,在这些大前提下,语音交互应用于有特定场景的服务系统似乎更为实际。例如客服、人工服务窗口等等,从其业务范畴制定语音交互系统或许可行,如同线上智能客服。 除了单纯的识别文字,语音交互更大的价值在于把声音中更丰富的内容传递给机器。旋律、语种、情绪还有最关键的声纹,这些都是文字中无法体现的。如何挖掘这些信息的价值,语音这个不算新鲜的交互方式的沟通密度达到一个新的维度,这些才是语音交互的革命性所在。相比之下,让Siri帮你找个加油站,已经是语音交互最最浅层的应用了。 可我还是觉得和Siri说话好尴尬 (责任编辑:本港台直播) |