抢占语音识别的制高点已经成为诸多科技公司近来的重头戏。 近日,搜狗、百度、科大讯飞分别召开发布会,公布了自己在语音识别技术方面的成绩,三家都对外界称,自己的语音识别系统“准确率达到97%”。 光看这样的标题让黑君产生一种错觉,atv,人工智能已经发展到这么高级的水平了吗?那距离机器人时代还会遥远吗?电影《her》里的场景是要很快成为现实了吗? 以前我们常说互联网时代,你并不知道“和你聊天的是人还是狗”,现在可能变成“你爱上的都不知道是不是人”。 理智告诉黑君,“语音识别准确率达到97%”这个数据值得质疑。
zealer的一次测试的结果▲ 任何一项实验都是有特定的条件,在告诉大家一个数据的同时,是否也应该让其知晓是在什么条件下产生的最后结果呢。 让我们了解一下,97%都出自什么样的科学评判标准之下。 搜狗的语音实时翻译技术,“准确率达到了97%,支持最快 400 字每秒的听写”。 大家不要忽略了,搜狗的这项技术主要是指“语音识别和机器翻译(将它“听”到的内容转化为文字); 百度则宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。这是在百度语音开放平台每日在线语音识别请求 1.4 亿次的情况下,97%准确率则是在“安静条件下”实现; 科大讯飞则是引用了罗永浩9月份的公开说法。罗永浩称,科大讯飞的语音输入识别成功率达到了 97%,即使是离线识别准确率也达到了 95%。要知道,罗永浩是基于锤子手机之上的数据。 而语音转文字单项测试中,讯飞听见(面向政企、司法、媒体、速记等用户)实现语音实时转化成文字的正确率达到98%。 近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。
zealer的一次测试的结果▲ (这些都是最简单的语音输入转化为文字。而真正的语音识别最后到语音输出,尚有很长的路程。) 细细看来,其实每家公司的97%都是公布的都是在单个领域实验的结果。 所以说, 在圈内的人都知道,所谓的识别准确率都是在不同的维度之下。 就拿演讲一项来说,标准普通话的演讲、夹带方言的演讲、中英文穿插的演讲、英文演讲,不同的演讲语言、方式,在不同的场所,都会出现不同结果。 说到语音识别,并不只是语音翻译成文字那么简单,包括语音中的识错、纠错。 另一方面,如果参与语音测试的人,本身就是正确率高的人,那么其准确率数据必然好看。 本着讲事实的精神,黑君试验了某款语音识别的功能,仅就黑君用普通话说出“什么时候去五台山玩”这句话时,说了10次错了3次;用略带方言的普通话输入“我要去五台山时”,3次全错;而试验“从xx到xx中心”这句话时,准确率为100%。 虽然这次简单的实验本身无法证实什么,但从实验结果来看,输入的语言越标准,识别准确率越高。 当然,atv,这些数据其实是很鼓舞人心的,只不过,黑君觉得,在科学研究上,还是更加严谨些好。 follow黑科技 无黑不科技 清音π出品 玩乐主义|报告人民币|育子匠 (责任编辑:本港台直播) |