表 1:模型对华尔街日报评估数据集的预测样本。我们故意选择了模型难以判断的例子。如图所示,加入语言模型约束后基本上消除了在没有语言模型的情况下产生的所有「拼写错误」。 虽然我们的模型显示了非常好的 CER 结果,模型的读出单词拼写(spell out words phonetically)的倾向导致了相对较高的单词错误率。我们可以通过加入从外部词典和语言模型得到的解码器来约束模型,以此改进模型的性能(WER)。根据 [3,4],我们发现使用加权有限状态传感器(WFST)是一个特别有效的完成这项任务的方法。我们观察到 WER 数值在 WSJ 和 Librispeech 数据集上相对提高了 25%。 表 2 列出了使用华尔街日报(WSJ)语料库训练的各种端到端语音识别系统。为了测试「苹果」(公司)与「苹果」(水果)的识别结果,我们选择仅用 WSJ 数据集训练和评估的系统的公开数据进行系统间的比较。然而,结果显示在同一数据集上训练和评估的混合 DNN-HMM 系统比使用纯深神经网络架构的系统表现更好 [6]。另一方面,结果显示当训练集的数据量更大时,纯深度神经网络架构能够实现与混合 DNN-HMM 系统相同的性能 [引用 DS2]。 Reference CER(no LM) WER(no LM) WER(trigram LM) WER(trigram LM w/ enhancements) Hannun, et al. (2014) 10.7 35.8 14.1 N/A Graves-Jaitly (ICML 2014) 9.2 30.1 not reported 8.7 Hwang-Sung (ICML 2016) 10.6 38.4 8.88 8.1 Miao et al. (2015) [Eesen] not reported not reported 9.1 7.3 Bahdanau et al. (2016 6.4 18.6 10.8 9.3 Our implementation 8.64 32.5 8.4 N/A 表 2:我们只使用华尔街日报数据集来训练和评估各种端到端的语音识别系统的性能。CER(character error rate)指的是比较由模型得到的字符序列与实际转录的字符序列的字符错误率。LM 指的是语言模型。最后一列指的是使用附加技术(如重新评分、模型聚合等)解码的例子。 未来的工作 将 CTC 目标函数嵌入神经网络模型的语音识别模型,让我们初次看到了这种 纯正 DNN 模型的能力。不过,最近,所谓的基于注意机制(attention mechanism)增强的编-解码器(encoder-decoder)的 RNN 模型正在兴起,并作为用一种使用 CTC 标准 [4,5] 训练的 RNN 模型的可行的替代方案。基于注意机制的编-解码器模型与基于 CTC 标准的模型,都是被训练用于将声音输入序列(acoustic input)映射(map)到字符/音位(character/phoneme)序列上。正如上面所讨论的,基于 CTC 标准的模型被训练用于预测语音输入的每个帧对应的字符,并在逐帧的预测与目标序列序列之间搜索可能的匹配。与之相反,直播,基于注意机制的编-解码器模型会在预测输出序列之前首先读取整个输入序列。 该方法概念上的优点是,我们不必假设输出序列中的预测字符是相互独立的。CTC 的算法基于这个假设,而该假设是毫无根据的——因为字符序列出现的顺序是与比之之前较早出现的字符序列是高度条件相关的。最近的研究工作显示,LVCSR 系统的基于注意机制的编-解码器模型相对于基于 CTC 标准的模型在字符出错率上有明显的改善 [4]。在我们这两种方法被整入语言模型之前进行评估,得出的评断是正确的,这也支持了基于注意机制的模型是比基于 CTC 标准的模型更好的声学模型的论断。然而,值得指出的是,j2直播,当语言模型被用来确定单词错误率时,这种性能上的差异就消失了。 (责任编辑:本港台直播) |