报码:【图】深度 | 从算法、硬件到研究社区，全面回顾2016年机器学习领域主要进展(3)_本港台直播_J2开奖直播

我们提出了一种用于序列处理（sequence processing）的神经架构。ByteNet 是一种两个扩张的卷积神经网络（dilated convolutional neural networks）的堆叠；其中一个网络用于编码源序列（source sequence），另一个网络用于解码目标序列（target sequence）——这个过程中目标网络动态展开从而生成可变长度输出。ByteNet 有两个核心特性：它在与序列长度成线性的时间上运行；它能保留序列的时间分辨率（temporal resolution）。ByteNet 解码器在字符级的语言建模上获得了顶尖水平，并超越了之前循环神经网络取得的最好结果。ByteNet 也在原始的字符级机器翻译（raw character-level machine translation）上获得了接近最好的神经翻译模型（运行在二次时间（quadratic time）中）所能取得的顶尖表现。由 ByteNet 学习到的隐含架构能反映出序列之间的预期对应。

（2）文本理解

　　JMT。Salesforce 的 MetaMind () 建立了一个叫做 Joint Many-Tasks（JMT）的模型，目标是要创造出一个可以学习五个常见自然语言处理任务的模型：

词性标注（Part-of-speech tagging）。指对句子中的每个词都指派一个合适的词性，直播，比如说名词、动词、形容词等。

词块分析（Chunking）。也叫做浅层句法分析（shallow parsing），其中涉及到很多任务，像是寻找名词和动词词组等。

依存关系分析（Dependency parsing）。识别词语之间的语法关系（比如说形容词修饰名词）。

语义相关度（Semantic relatedness）。衡量两个句子之前的语义相关程度，其结果是用一个实值分数来表示的。

文字蕴含（Textual entailment）。确定前提的句子是否包含一个表示假设的句子。可能出现的句子关系包括：蕴含、矛盾和中立。

　　这个模型背后的魔力就在于它是端对端训练的。也就是说，它能够让两个不同层面的处理兵种，这样浅层任务（不那么复杂的）可以得到改善，从深层（较复杂的任务）中得出结论。我们之前的想法是只用浅层来改进深层的任务，而不是用其他的方式，所以这个采用不同的方式与之前的思路比较来说是一个新的想法。除了词性标注之外，这个模型在其他方面都取得了很好的成绩。

　　（3）问题回答

　　DCN。MetaMind 同样提出了称之为 Dynamic Coattention Network (DCN) 的新模型来解决疑问解答问题，该模型建立在相当直观的思路之上。想象下给你了一篇长文并问你一些问题，你是想先看文章再听问题呢，还是更想先听问题再开始阅读文章？一般提前知道问题是怎么样的就会知道看文章要注意些什么，如果不知道问题，那么你就会将你的注意力平均分配并记下每一点可能会被提问的细节。DCN 也是在做这样一件事，首先它生成一个内部表征，这个内部表征是基于文本并且由系统将要回答的问题做为约束条件，然后就是按照可能的回答列表迭代，直到收敛到最后的回答。

　　（4）语音识别

　　2016年10月19日的一篇论文Achieving Human Parity in Conversational Speech Recognition 中，。 5.9% 的词错率已经等同于人速记同样一段对话的水平，而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。

受到机器学习集成技术（machine learning ensemble techniques）的启发，该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行 RNNLM 的语言模型重新计分（Language model rescoring）与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring，在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率，代表了在这一基准任务上对先前成果的改进。

LipNet。，提出了 LipNet——一种可以将可变长度的视频序列映射成文本的模型，其使用了时空卷积、一个 LSTM 循环网络和联结主义的时间分类损失（connectionist temporal classification loss）。它是第一个将深度学习应用于模型的端到端学习的模型，可以将说话者的嘴唇的图像帧序列映射到整个句子上。这个端到端的模型在预测句子前不再需要将视频拆分成词。在 GRID 语料库上，LipNet 实现了 93.4% 的准确度，超过了经验丰富的人类唇读者和之前的 79.6% 的最佳准确度,将自动唇读技术的前沿水平推进到了前所未有的高度。在不久的将来，这一视频识别应用会非常有用。

　　4、

(责任编辑：本港台直播)