还记得经典科幻电影《2001 太空漫游》中的飞船主控计算机 Hall 吗?它具有依靠阅读说话人的嘴唇运动理解其所表达的内容的能力,这种能力也在推动那个幻想故事的情节发展中起到了至关重要的作用。近日,牛津大学、Google DeepMind 和加拿大高等研究院(CIFAR)联合发布了一篇同样具有重要价值的论文,介绍了利用机器学习实现的句子层面的自动唇读技术 LipNet。该技术将自动唇读技术的前沿水平推进到了前所未有的高度。原论文可点击文末「阅读原文」下载。
摘要 唇读(lipreading)是指根据说话人的嘴唇运动解码出文本的任务。传统的方法是将该问题分成两步解决:设计或学习视觉特征、以及预测。最近的深度唇读方法是可以端到端训练的(Wand et al., 2016; Chung & Zisserman, 2016a)。但是,所有已经存在的方法都只能执行单个词的分类,而不是句子层面的序列预测。研究已经表明,人类在更长的话语上的唇读表现会更好(Easton & Basala, 1982),这说明了在不明确的通信信道中获取时间背景的特征的重要性。受到这一观察的激励,我们提出了 LipNet——一种可以将可变长度的视频序列映射成文本的模型,其使用了时空卷积、一个 LSTM 循环网络和联结主义的时间分类损失(connectionist temporal classification loss),该模型完全是以端到端的形式训练的。我们充分利用我们的知识,LipNet 是第一个句子层面的唇读模型,其使用了一个单端到端的独立于说话人的深度模型来同时地学习时空视觉特征(spatiotemporal visual features)和一个序列模型。在 GRID 语料库上,LipNet 实现了 93.4% 的准确度,超过了经验丰富的人类唇读者和之前的 79.6% 的最佳准确度。 1 引言 唇读在人类的交流和语音理解中发挥了很关键的作用,这被称为「麦格克效应(McGurk effect)」(McGurk & MacDonald, 1976),说的是当一个音素在一个人的说话视频中的配音是某个人说的另一个不同的音素时,听话人会感知到第三个不同的音素。 唇读对人类来说是一项众所周知的艰难任务。除了嘴唇和有时候的舌头和牙齿,大多数唇读信号都是隐晦的,难以在没有语境的情况下分辨(Fisher, 1968; Woodward & Barber, 1960)。比如说,Fisher (1968) 为 23 个初始辅音音素的列表给出了 5 类视觉音素(visual phoneme,被称为 viseme),它们常常会在人们观察说话人的嘴唇时被混淆在一起。许多这些混淆都是非对称的,人们所观察到的最终辅音音素是相似的。 所以说,人类的唇读表现是很差的。听觉受损的人在有 30 个单音节词的有限子集上的准确度仅有 17±12%,在 30 个复合词上也只有 21±11%(Easton & Basala, 1982)。 因此,实现唇读的自动化是一个很重要的目标。机器读唇器(machine lipreaders)有很大的实用潜力,比如可以应用于改进助听器、公共空间的静音听写、秘密对话、嘈杂环境中的语音识别、生物特征识别和默片电影处理。机器唇读是很困难的,因为需要从视频中提取时空特征(因为位置(position)和运动(motion)都很重要)。最近的深度学习方法试图通过端到端的方式提取这些特征。但是,所有的已有工作都只是执行单个词的分类,而非句子层面的序列预测(sentence-level sequence prediction)。 在这篇论文中,我们提出了 LipNet。就我们所知,这是第一个句子层面的唇读模型。就像现代的基于深度学习的自动语音识别(ASR)一样,LipNet 是以端到端的方式训练的,从而可以做出独立于说话人的句子层面的预测。我们的模型在字符层面上运行,使用了时空卷积神经网络(STCNN)、LSTM 和联结主义时间分类损失(CTC)。 我们在仅有的一个公开的句子层面的数据集 GRID 语料库(Cooke et al., 2006)上的实验结果表明 LipNet 能达到 93.4% 的句子层面的词准确度。与此对应的,之前在这个任务上的独立于说话人的词分类版本的最佳结果是 79.6%(Wand et al., 2016)。 我们还将 LipNet 的表现和听觉受损的会读唇的人的表现进行了比较。平均来看,他们可以达到 52.3% 的准确度,LipNet 在相同句子上的表现是这个成绩的 1.78 倍。 最后,通过应用显著性可视化技术(saliency visualisation techniques (Zeiler & Fergus, 2014; Simonyan et al., 2013)),我们解读了 LipNet 的学习行为,发现该模型会关注视频中在语音上重要的区域。此外,通过在音素层面上计算视觉音素(viseme)内和视觉音素间的混淆矩阵(confusion matrix),我们发现 LipNet 少量错误中的几乎所有都发生在视觉音素中,因为语境有时候不足以用于消除歧义。 2 相关工作 (责任编辑:本港台直播) |