欢迎关注微信公众号:微软研究院 为了让计算机能像人类一样自然地听懂并理解语言,微软的研究员们在计算机语音识别和理解的技术上,又向前迈进了里程碑式的一大步。 微软首席语音科学家黄学东在论文中表示,我们在近期的产业标准Switchboard语音识别基准测试中,实现了词错率(WER)低至6.3%的新突破,且为目前该领域内错误率最低。
黄学东 相关论文已于周二发表。(请点击阅读原文查看)论文中提到“我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是目前单个系统能取得的最好表现。在Switchboard 测试数据上,多个语音模型的组合将进一步使词错率降至 6.3%。” 论文介绍 先给大家附上相关论文(由机器之心提供翻译): 微软 2016 对话语音识别系统(The Microsoft 2016 Conversational Speech Recognition System)
摘要 我们描述了微软的对话语音识别系统,在该系统中我们结合了近期在基于神经网络的声学和语言模型上的进展,推进了在 Switchboard 识别任务上的顶尖成果。受到机器学习集成技术(machine learning ensemble techniques)的启发,该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行RNNLM 的语言模型重新计分(Language model rescoring)与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率,j2直播,代表了在这一基准任务上对先前成果的改进。 导语 近年,由于对卷积和循环神经网络的精心设计和优化,在降低语音识别错误率上我们已经看到了快速发展。尽管我们对基础架构已经很好地认识一段时间了,但它近期才成为了进行语音识别的最好模型。惊人的是,对声学模型和语言模型而言都是如此。相比于标准的前馈 MLP 或 DNN,这些声学模型有能力对大量带有时间不变性的声学环境建模,而且卷积模型还能应对频率不变性的情况。在语言模型中,循环模型通过对连续词表征(continuous word representations)的归纳能力,在传统的 N-gram 模型上实现了进步。同时,集成学习(ensemble learning)已经在多种神经模型得到了普遍的应用,从而通过减少偏差和方差改进稳健性。在此论文中,我们广泛地使用模型的集成,同时也改进单个组件模型,从而推进在对话电话语音识别(CTS)中的进展,CTS 从上世纪 90 年代就已经成为了检验语音识别任务的一项基准。这一系统的主要特征包括: 1. 对卷积神经网络和长短期记忆(LSTM)网络这两种基础声学模型架构的集成,每个架构也有多种变体; 2. 在 LACE 卷积神经网络中的一个注意机制,其可以有区别地为不同距离的语境赋予权重; 3. Lattice-free MMI 训练; 4. 在所有模型中使用基于 i-vector 的改编版本; 5. 在前向和反向过程中都运行带有多个循环神经网络语言模型的 language model rescoring; 6. 融合网络系统组合与最好系统子集搜索的耦合,这正是在有许多候选系统的情况下所需的 该论文在其他部分对该系统进行了详细描述。Section 2 描述了 CNN 和 LSTM 模型。Section 3 描述了我们对 i-vector 改编版的部署。Section 4 展现了 lattice-free MMI 训练过程。语言模型rescoring 是该系统的一个重大部分,在 Section 5 中有描述。实验结果呈现在 Section 6 中,随后是对相关工作和结论的讨论。
表 4. 在 eval 2000 set 上的来自 i-vector 和 LFMMI 的性能改进
表 5. 在 eval 2000 set 上不同声学模型的词错率。除非特别标注,所有的模型都在 2000 小时的数据上进行训练,atv直播,有 9000 个 senones(聚类的结果)。 比深更深的深层神经网络 (责任编辑:本港台直播) |