为了实现真实而快节奏的动作,Mejia和他的同事需要准确和响应敏捷的语音识别功能。“一定要做到这一点,任何人在任何时候说的任何话,【语音识别引擎】都要能够理解,并且沿着脚本中正确的路径运行,”他解释道。他随后补充说:“这,就是微软认知服务的魔力。”
创建自定义语音模型,解锁更多场景 现代语音识别技术依赖于机器学习统计模型,可借云计算和大数据之力,将声音片段转换为文本,构成口语内容的精确转录。 例如声学模型,它是一种分类器,能将特定语言的音频短片段标记为几个音素或声音单元。这些标签与来自相邻片段的标签结合,就可以预测目标语言中将要说出的词汇。预测过程由一部将每个单词拆分成音素的目标语言字典作为索引。 同时,语言模型通过衡量目标语言中每个被预测单词的常见性,对预测进一步精确细化。语音识别系统在处理发音类似的单词时,更常见的单词被选中的概率更高。这些模型还会考虑上下文,以便做出更准确的预测。Seltzer解释说:“如果前文是‘The player caught the(选手抢到了)’,那么‘ball(球)’被选中的可能性就要大于‘fall(掉落,与ball发音相近)’”。 微软先进的语音识别引擎背后的声学模型其实是深层神经网络,这种分类器源于人类大脑模式识别理论的启发。研究人员借助在云中运行的高级算法和数千小时的音频数据,对该模型进行了训练。 2016年10月8日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至5.9%的突破 ,创造了当时该领域内错误率的最低纪录。这意味着,极具里程碑式的意义。而这项标准化测试所采用的基准已被学术界和业界研究人员沿用了20多年,具有极强的权威性。 “现在,如果你把从未接受过嘈杂的工厂对话数据训练的同样一款系统放在真正的嘈杂工厂里,它是不可能出色的完成任务的,”Seltzer说。“这就是微软自定义语音服务(Custom Speech Service)大显身手之处。”
该服务允许开发人员针对嘈杂工厂车间的声音和工人们的术语,自定义声学和语言模型。例如,可以训练声学模型在液压设备和钻床的轰鸣中识别语言;而语言模型则可加以更新,以便对工厂特有的术语(例如螺母、螺栓和汽车部件等)词汇赋予优先权重。 究其根源,自定义语音服务利用一种算法将微软现有的语音识别技术运用于第三方开发人员提供的数据。从已经通过大量数据进行过训练的模型着手,所需的与特定应用相关的数据量就会大大减少。在开发人员自有数据不足的情况下,语音识别系统会重新恢复到已有模型上。 “基本的理念是,系统越专注,它们的表现就越好,”Seltzer说:“自定义语音服务的任务就是让用户能够使系统专注于自己真正在乎的数据上。” 属于你的虚拟现实 Human Interact公司的《星舰指挥官》的故事发生在一个科幻的世界里,其中不少单词和地名都是开发者创造出来的。当Mejia用这些关键词和短语训练自定义语音服务时,他发现这套新系统的错误率只有构建早期原型的开源语音转文本软件的一半。 接着,Mejia求助于微软语言理解服务来解决另一个难题——理解玩家话语的意图。“有很多不同的方式来表达‘开始行动’”,他解释道。“比如,‘我们走、自动驾驶、带我离开、超光速行进、启动超级驱动’等,这些都是玩家在我们的游戏进行中会用到的表达方法,特别是在紧急时刻,因为这种时候你往往并没有太多时间思考。” 目前已开放公共预览的语言理解服务允许开发人员在机器学习模型中对分类器进行训练,通过加载用户可能脱口而出的事物类型子集,并标记这些话语的意图,就可以理解自然语言的意图。 位于埃及开罗的微软先进技术实验室主任Hussein Salama解释道,这项服务在后端利用了十多年来有关如何借助有限数据集对分类器进行训练的研究。Salama目前正在领导这项服务的开发工作。 (责任编辑:本港台直播) |