本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:语音助手是下一个大平台,但前提是你不能有口音!(2)

时间:2017-05-02 08:36来源:天下彩论坛 作者:j2开奖直播 点击:
以一个只有26年时间限度的语料库为基础开发出来的语音技术,不能识别某些口音是无法避免的。 虽然英语是语言市场中的专业货币,但现实中许多的人是

  以一个只有26年时间限度的语料库为基础开发出来的语音技术,不能识别某些口音是无法避免的。 虽然英语是语言市场中的专业货币,但现实中许多的人是将它作为第二、三甚至第四语言来学习的,口音无法避免。将该过程与药物试验相比较,Gavaldà认为:“比如这种药可能已经在一百名患者中被试验过了,但100人相对庞大的人口基数非常微不足道。如果想以此推断在大多数人身上的效果,试验对象的数量不太具有说服力。”

竞争使得数据无法共享最新语音识别技术流传缓慢

  大多数智能手机的销售都在美国以外的地区(https://www.statista.com/statistics/220977/global-smartphone-market-share-forecast-by-country/),所以大公司需要在全球范围内保持竞争力。苹果、谷歌和亚马逊都有自己一套收集语言和口音数据的秘诀。使用他们产品的消费者越多,能搜集到的反馈就越多,然后就能通过Alexa应用程序上的语音培训(https://www.howtogeek.com/235916/how-to-improve-your-amazon-echo-experience-by-training-it-to-your-voice/)等程序来改善他们的产品。

  虽然大型科技公司在收集语音数据方面取得不错的进展,但是由于相互的竞争关系,atv,和市场份额等原因,这些数据无法实现共享。 这是为什么往往最新的语音识别技术需要花费很长时间才能流传开的原因。 这个秘密也适用于我的这篇报道。 亚马逊从来没有回复过我让他们评论这篇报道的请求,谷歌的发言人让我去看一篇介绍他们深度学习技术的博客,而苹果的公关代表则指出现在可以为36个国家定制不同的Siri版本,并支持21种语言、语言变体和口音。

  其他国家和地区的企业也意识到口音的重要性。 中国搜索引擎公司百度的一位代表表示,他们建立在深度学习上的对英语和汉语的语音识别精度,比人类识别的更加高。此外,百度还开发了一种能够识别方言和口音的“深度语音”算法。当时的百度首席科学家吴恩达(译者注:目前已离职)告诉《TheAtlantic》(译者注:一新闻媒体) :“中国对英语世界发生的情况相当了解,不过英语世界可能并不了解中国在发生什么。”

  另一方面,无力投资在语音数据收集上的小公司和个人会倾向于使用更便宜、更容易获得的数据库。这些数据库在语音数据多样化方面,可能不如之前提到的著名语音数据库。 会议记录初创公司Remeeting的研究员Arlo Faria说到:“至少从我的角度来看,(语音数据)并没有真正变得更加多元化。例如Remeeting研究了一个叫作Fisher的语料库,虽然其中包含一组非英语母语的参与者,但还是忽略了很多其他口音。 比如Fisher里虽然有一些西班牙和印度口音英语,但英国国内不同口音数据却不那么全。”

语音科学仍是最终解决口音识别问题的关键所在

  这就是为什么语音识别技术与人类的反应不同。Pop UpArchive(奥克兰音频搜索平台)的联合创始人兼首席执行官AnneWootton说:“通常软件识别印度口音时更加灵活,而识别像ShenandoahValley南方地区口音会更难一些。我认为这和培训数据是否包括这些口音有重要关系。”

  华盛顿大学语言学系的社会语言学方向博士研究生Rachael Tatman指出,这些数据中代表性不足的群体往往是在现实中也是被排斥的群体。 例如,美国的语音数据库中缺乏贫困群体、未受过教育的群体、农村群体、非白人群体、母语非英语群体的英语声音。 她说:“如果某人具有越多的上述特质,那对其的语音识别效果就越差。”

  尽管如此,Trint的首席执行官兼联合创始人JeffreyKofman(一个英国自动化语音文本软件公司)却坚信语音科学是最终解决口音识别问题的关键所在。 他谈到,当人们在Trint平台上视频聊天时,Trint可以把澳大利亚口音像英国口音和北美口音一样顺利转为书面记录。 Trint还为十几种欧洲口音的英语提供语音转录记录,并计划在今年晚些时候增加南亚口音。

  收集口音语音数据耗资不菲,并且十分麻烦,这也是为什么大多数公司优先考虑收集关键人群语音数据的原因。有南亚口音的Kofman说:“比如在印度、巴基斯坦以及英国、美国和加拿大这些人数众多的国家,人们说话很带有明显的口音。”他表示接下来会优先考虑南非的口音。

  显然,不仅语音识别技术歧视带有口音的人群,人类也有。大众媒体和全球化对人们说话的口音有着很大影响。 演讲专家记载了自1960年以来美国某些区域性口音的变化趋势()(https://news.google.com/newspapers?nid=1310&dat=19600704&id=cRhWAAAAIBAJ&sjid=4eIDAAAAIBAJ&pg=5713,512386),人们倾向于对来自混合地理区域的人使用更一致的口音,比如数字助理或接线员就使用没有口音的声音(https://www.theguardian.com/technology/2016/feb/10/texas-regional-accent-siri-apple-voice-recognition-technology)。

  我们也可以理解为,是一种没有任何口音的声音。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容