本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】重磅论文 | 如何通过机器学习解读唇语?DeepMind要通过LipNet帮助机器「看」懂别人说的话(2)

时间:2016-11-06 19:20来源:香港现场开奖 作者:118开奖 点击:
本节介绍了其它在自动唇读研究上的工作,包含了自动唇读、使用深度学习进行分类、语音识别中的序列预测、唇读数据集四个方面。但由于篇幅限制,机

本节介绍了其它在自动唇读研究上的工作,包含了自动唇读、使用深度学习进行分类、语音识别中的序列预测、唇读数据集四个方面。但由于篇幅限制,机器之心未对此节进行编译,详情请查看原论文。

  

【j2开奖】重磅论文 | 如何通过机器学习解读唇语?DeepMind要通过LipNet帮助机器「看」懂别人说的话

表 1:现有的唇读数据集和对应数据集上已被报告出来的最佳准确度。Size 这一栏是指作者训练时所用的话语的数量。尽管 GRID 语料库包含了整个句子,但 Wand et al. (2016) 只考虑了更简单的预测单独的词的情况。LipNet 预测的是句子,因此可以利用时间语境来实现更高的准确度。短语层面的方法被当作简单的分类看待。

3 LipNet

LipNet 是一种用于唇读的神经网络架构,其可以将不同长度的视频帧序列映射成文本序列,而且可以通过端到端的形式训练。在本节中,我们将描述 LipNet 的构建模块和架构。

3.1 时空卷积

卷积神经网络(CNN)包含了可在一张图像进行空间运算的堆叠的卷积(stacked convolutions),其可用于提升以图像为输入的目标识别等计算机视觉任务的表现(Krizhevsky et al., 2012)。一个从 C 信道到 C' 信道的基本 2D 卷积层(没有偏置(bias),以单位步长)的计算:

  

【j2开奖】重磅论文 | 如何通过机器学习解读唇语?DeepMind要通过LipNet帮助机器「看」懂别人说的话

对于输入 x 和权重:

  

其中我们定义当 i,j 在范围之外时,xcij=0.

时空卷积神经网络(STCNN)可以通过在时间和空间维度上进行卷积运算来处理视频数据:

  

3.2 长短期记忆

长短期记忆(LSTM)(Hochreiter & Schmidhuber, 1997)是一类在早期的循环神经网络(RNN)上改进的 RNN,其加入了单元(cell)和门(gate)以在更多的时间步骤上传播信息和学习控制这些信息流。我们使用了带有遗忘门(forget gates)的标准 LSTM 形式:

  

【j2开奖】重磅论文 | 如何通过机器学习解读唇语?DeepMind要通过LipNet帮助机器「看」懂别人说的话

其中 z := {z1, . . . , zT } 是 LSTM 的输入序列,是指元素之间的乘法(element-wise multiplication), sigm(r) = 1/(1 + exp(?r))。

我们使用了 Graves & Schmidhuber (2005) 介绍的双向 LSTM(Bi-LSTM):一个 LSTM 映射

  

,另一个是

,然后

  

  ,该 Bi-LSTM 可确保 ht 在所有的 t' 上都依赖于 zt'。为了参数化一个在序列上的分布,在时间步骤 t,让 p(ut|z) = softmax(mlp(ht;Wmlp)),其中 mlp 是一个权重为 Wmlp 的前向网络。然后我们可以将长度 T 的序列上的分布定义为

,其中 T 由该 LSTM 的输入 z 确定。在 LipNet 中,z 是该 STCNN 的输出。

3.3 联结主义的时间分类

联结主义的时间分类损失(onnectionist temporal classification (CTC) loss)(Graves et al., 2006)已经在现代的语音识别领域得到了广泛的应用,因为这让我们不再需要将训练数据中的输入和目标输出对齐(Amodei et al., 2015; Graves & Jaitly, 2014; Maas et al., 2015)。给定一个在 token 类(词汇)上输出一个离散分布序列的模型——该 token 类使用了一个特殊的「空白(blank)」token 进行增强,CTC 通过在所有定义为等价一个序列的序列上进行边缘化而计算该序列的概率。这可以移除对对齐(alignment)的需求,还同时能解决可变长度的序列。用 V 表示该模型在其输出(词汇)的单个时间步骤上进行分类的 token 集,而空白增强过的词汇

  

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容