表 2 总结了相比于基线的性能。根据文献,人类唇读者的准确率大约是 20%(Easton & Basala, 1982; Hilder et al., 2009)。如预料的一样,GRID 语料库中固定的句子结构和每个位置有限的词子集有助于对语境的使用,能提升表现。这三位听觉受损者的词错率(WER)分别为 57.3%、50.4% 和 35.5%,平均词错率为 47.7%。 4.4 学到的表征 在这一节中,我们从语音学的角度分析了 LipNet 的学习到的表征。首先,我们创造了显著性可视化(saliency visualisations (Simonyan et al., 2013; Zeiler & Fergus, 2014))来说明 LipNet 所学的重点区域。特别地,我们向该模型送入了一个输入,并贪婪地解码了一个输出序列,得出了一个 CTC 对齐 (遵循 3.2 和 3.3 节的符号)。然后,我们计算了
的梯度,并考虑了输入视频帧序列,但和 Simonyan et al. (2013) 不一样,我们使用了有引导的反向传播(guided backpropagation (Springenberg et al., 2014))。第二,我们训练 LipNet 预测的是 ARPAbet 音素,而不是字符,这样可以使用视觉音素(viseme)内和视觉音素间的混淆矩阵(confusion matrix)来分析视觉音素。 4.4.1 显著性地图(Saliency Maps) 我们应用显著性可视化技术(saliency visualisation techniques)来解读 LipNet 学习到的行为,结果表明该模型会重点关注视频中在语音方面重要的区域。特别地,在图 2 中,我们基于 Ashby (2013) 为说话人 25 的词 please 和 lay 分析了两个显著性可视化。 图 2:词 (a) please 和 (b) lay 的显著性地图,由向输入的反向传播产生,展示了 LipNet 学会关注的地方。图中的转录由贪婪 CTC 解码(greedy CTC decoding)给出。CTC 空白由空格符号表示。 4.4.2 视觉音素(viseme) 根据 DeLand(1931)和 Fisher(1968),Alexander Graham Bell 首次假设给定说话人的多音素可被视觉地识别。这在后来得到了证实,j2直播,这也带来了视觉音素的概念,即一个音素的视觉对应(Woodward & Barber, 1960; Fisher, 1968)。为了我们的分析,我们使用了 Neti et al. (2000) 中音素到视觉音素的映射,将视觉音素聚类成了以下类别:Lip-rounding based vowels (V)、Alveolar-semivowels (A),、Alveolar-fricatives (B)、Alveolar (C)、Palato-alveolar (D)、Bilabial (E), Dental (F)、Labio-dental (G) 和 Velar (H)。完整映射可参看附录 A 中的表 4. GRID 包含了 ARPAbet 的 39 个音素中的 31 个。我们计算了音素之间的混淆矩阵(confusion matrix),然后按照 Neti et al. (2000) 将音素分组成了视觉音素聚类。图 3 表示了 3 个最容易混淆的视觉音素类别,以及视觉音素类别之间的混淆。完整的音素混淆矩阵参看附录 B 图 4. 图 3:视觉音素内和视觉音素间的混淆矩阵,描绘了 3 个最容易混淆的类别,以及视觉音素聚类之间的混淆。颜色进行了行规范化(row-normalised)以强调误差。 5. 结论 我们提出了 LipNet,它是第一个将深度学习应用于模型的端到端学习的模型,可以将说话者的嘴唇的图像帧序列映射到整个句子上。这个端到端的模型在预测句子前不再需要将视频拆分成词。LipNet 需要的既不是人工编入的时空视觉特征,也不是一个单独训练的序列模型。 我们的实证评估表明了 时空特征提取和高效的时间聚集(temporal aggregation)的重要性,确认了 Easton 和 Basala 在 1982 年提出的假说(1982)。此外,LipNet 大大超越了人类的读唇水平的基线,比人类水平高出 7.2 倍,WER 达到了 6.6%,比现在 GRID 数据集中最好的词水平(Wand 等人,2016)还要低 3 倍。 虽然 LipNet 在实证上取得了成功,Amodei 等人在 2015 年发表的深度语音识别论文显示,只有更多的数据才能让表现提升。在未来的研究中,我们希望通过将 LipNet 应用到更大的数据集中来证明这一点,如由 Chung 和 Zisserman 等人在 2016 年收集的这种数据集的句子水平变体(sentence-level variant)。像默写这样的应用只能使用视频数据。然而,为了扩展 LipNet 的潜在应用,我们能将这种方法应用到一种联合训练的视听语音识别模型上,其中视觉输入会在嘈杂的环境中提升鲁棒性。 致谢、参考文献及附录(略) ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |