本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:语音助手是下一个大平台,但前提是你不能有口音!

时间:2017-05-02 08:36来源:天下彩论坛 作者:j2开奖直播 点击:
在使用Alexa访问网页,驾驶汽车,还有做其他杂七杂八事情时,我发现了一件有趣的事:Alexa竟然不能识别我老妈的口音! “这些软件好像听不懂我在说啥。” 我妈等了整整两个月才

  在使用Alexa访问网页,驾驶汽车,还有做其他杂七杂八事情时,我发现了一件有趣的事:Alexa竟然不能识别我老妈的口音

“这些软件好像听不懂我在说啥。”

  我妈等了整整两个月才收到Amazon echo这个软件,不过她还要等我帮她安装到手机上。

  当我下载软件的时候,她皱起了眉头。我猜,她可能想到了过去使用Siri的不愉快回忆,也可能她现在会怀疑所有的语音助手设备。 她说:“这些软件好像听不懂我在说啥。”

  我老妈出生在菲律宾,老爸出生在印度。英语是他俩的第三语言。虽然他们在美国已生活了近50年,开奖,早已能讲流利的英语,然而多少还是会带点儿口音,并常常夹杂不那么道地的短语。 过去,包括Siri、Alexa在内的语音识别技术设备,基本上都不能识别他们“特别”的语音指令。

  这不是什么我父母才有的特殊经历。(这样的经历甚至被记录在某些喜剧中,比如这个广为流传的被困在语音控制电梯里的段子(https://www.youtube.com/watch?v=NMS2VnDveP8)。)我嫂子说,她发现Siri不能识别她朋友和家人的“民族名字”,所以就放弃了使用Siri。这种沮丧我能想象:某天我命令Siri“发短信给Zahir”,结果变成了“发短信给Zara”。

  尽管看起来,这还不是什么太大的问题,但考虑到一场语音革命正在进行中,这个问题将会变得愈来愈重要。

到2020年一半的搜索将会通过语音来执行

  目前我们已经有了语音服务支持的可穿戴音频视频娱乐系统。由于在开车时司机们往往不怎么专心,语音控制系统可能很快将成为车辆的标配。GoogleHome和Amazon Alexa正想办法实现数百万美国家庭“智慧之家”的梦想。Echo是这个圣诞期间Amazon的畅销王牌,它的销量相对于2016年增长了900个百分点,甚至出现了延期交货,这也是我前面提到的,导致我老妈等了好长时间才收到Echo的原因。

  研究人员预计美国今年将有2450万台语音驱动设备投入使用,以此来支持人们的日常工作()–– 这支持了ComScore的一项预测(https://www.branded3.com/blog/ok-google-give-stats-voice-search/);到2020年,一半的搜索将会通过语音来执行。(译者注:ComScore公司是一家全球性互联网信息服务提供商,是美国知名的互联网统计公司、互联网流量跟踪分析公司和市场调研公司)

  随着越来越多的语音控制科技的出现,语音服务如何实现更好地服务带口音人群这一目标?

攻克带口音人群目标第一步收集更多音频样本

  要训练一台机器识别语音,首先我们需要很多音频样本,研究人员必须收集成千上万人讲述各种话题的语音, 然后手动记录这些音频剪辑。 这些数据 (音频剪辑和书面记录的组合 )将会使得机器在声音和单词之间建立关联。其中使用最频繁的短语将被用于AI算法训练,以识别人类说话。

  AI只能识别出训练过的内容,所以训练内容的口音多样性决定了语音识别软件的灵活性。 当前,政府、学术界和小型创业公司已经能依靠已有的音频和书面记录(称为语音语料库)来避免人工转录录音内容这样的劳动密集型工作。 宾夕法尼亚大学的语言数据联盟(LDC)是一个强大的语音语料库。它根据许可协议(https://www.ldc.upenn.edu/data-management/using/licensing)向公司和研究人员提供这些数据集。 Switchboard是LDC里面最著名的语料库之一(https://catalog.ldc.upenn.edu/ldc97s62)。

  二十世纪九十年代早期,TexasInstruments推出了Switchboard语音数据库,然后由LDC把Switchboard提供给其他机器学习程序使用。 Switchboard是一个由543位美国人录制的大约2,400个电话对话组成的集合(https://catalog.ldc.upenn.edu/ldc97s62),共有约250小时的录音。当时研究人员通过赠送长途电话卡来招募参与者。 参与者拨打电话和其他参与者联系, 然后两个陌生人会就特定的话题展开讨论,比如如何抚养小宝贝,或最近的体育赛事如何。

  因为LDC位于费城,多年来语言学家一直认为这些收集到的谈话样本总体上来看,应该会更接近美国东北部口音。 但是一直到应用程序Yik Yak的机器智能主管MarsalGavald拿到Switchboard参与者的资料时,他才发现在语言库里中西部地区口音其实更多一些,而南部和北中部的口音比例合起来才到40%左右,远没有预想中那么多。

  虽然还有许多其他语料库,Switchboard仍然是语音识别系统模型的基准。IBM和Microsoft都使用Switchboard来测试其语音系统单词的错误率(https://www.engadget.com/2017/03/10/ibm-speech-recognition-accuracy-record/)。 Gavaldà告诉我们:“几乎所有的语音识别引擎都使用了这套超500人样本的语料库进行训练”。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容