你可以将记忆 m 视为由单个的记忆 mi 构成的一个序列。这些单个记忆 mi 的每一个都能成为整个记忆 m 的一个函数,特征表征 I(x),和或其自身。函数 G 能简单到在单个记忆单元 mi 中仅存储整个表征 I(x)。你能基于新输入修改函数 G ,更新过去的记忆。第三、四部包括根据问题读取记忆,获得一个特征表征 o, 然后将其解码输出一个最终答案。
函数 R 可以是个 RNN,被用来将来自记忆的特征表征转化为一个可读的、准确的问题答案。 现在,进一步看看第三步。我们希望 O模块能输出一个特征表征,将可能的答案最好匹配给一个给定问题 x。现在,这个问题会与每一单个的记忆单元进行比较,也会根据记忆单元能否好好支持问题来打分。
我们求评分函数的 argmax,找到能最好支持问题的输出表征(你也可以取多个最高得分单元,不必限于1个)。评分函数就是计算不同问题嵌入和选中记忆单元之间的矩阵积。(欲知详情,请阅读论文)。当你乘以两个词向量以求其相似性时,你会想到这个。然后,这一输出表征 o 会被输入一个 RNN 或者 LSTM ,或者输入另一个会输出可读结果的评分函数。 训练方式是监督训练,训练数据包括原始文本、问题、支撑句( supporting sentences)以及基底真实答案。这里是目标函数。
感兴趣的读者,下面这些论文谈到了构建这类记忆网络的方法: End to End Memory Networks (https://arxiv.org/pdf/1503.08895v5.pdf) (仅需监督输出,不支持句子) Dynamic Memory Networks (https://arxiv.org/pdf/1506.07285v5.pdf) Dynamic Coattention Networks (https://arxiv.org/pdf/1611.01604v2.pdf)(2个月前才发布,斯坦福问答数据组中获最高得分 情感分析的树LSTMs 论文:https://arxiv.org/pdf/1503.00075v3.pdf 介绍 下一篇论文分析了情感分析领域取得的进展,情感分析就是判定某个短语的语气/意义是积极的还是消极的。更正式一点的说法,情感可以被定义为对某一状况或时间的观点或态度。这时,LSTMs就是情感分析网络中最常用到的部件。这篇由Kai Sheng Tai, Richard Socher, and Christopher Manning 合作的论文介绍了一种将LSTMs 链入非线性结构的有趣方法。 这种非线性安排背后的想法在于:自然语言具有这样的特质,亦即单词按某种顺序排列后就变成短语。这些依据单词顺序构成的短语所表达的意思和构成短语的单词的意思是不同的。为了能表征出这一特点,一个LSTM的网络单元就必须被安排进一个树结构,其中 ,不同的单元会受它们的子节点( children nodes)影响。 网络架构 Tree LSTM 和 标准 LSTM 的一个不同之处在于,后者隐藏状态是一个关于当前输入和之前时间步骤上的隐藏状态的函数。不过,有了这个结构,它的隐藏状态就是关于当前输入及其子单元隐藏状态的函数。
新的树结构会带来一些数学上的变化,包括子单元忽略掉门。那些对细节感兴趣的读者,可以研读这篇论文。不过我的焦点是理解这些模型会比线性的LSTM效果更好的原因。 一个Tree-LSTM,一个单独的单元就可以吸收所有子节点的隐藏状态。这很有趣,因为一个单元可以分别评估其子节点。训练过程中,网络能意识到一个特定的单词(或许是情感分析中的“not”或者“very”)对句子整体情感分析的极端重要性。能给予那个节点更高一点的估值,这一能力让网络具有了很大的灵活性,也提升了网络表现。 神经机器翻译 论文:https://arxiv.org/pdf/1609.08144v2.pdf 介绍 最后一篇论文讲述了解决机器翻译任务的方法。作者来自谷歌机器学习那些颇有远见的学者们 :Jeff Dean、Greg Corrado、Orial Vinyals 等。这篇文章介绍了一种机器翻译系统,也是谷歌翻译服务背后的支柱。较之谷歌之前使用的产品系统,该系统平均降低了60%的翻译误差。 (责任编辑:本港台直播) |