这是第一篇把 VAE 的思想引入到 dialogue 的 paper。和普通的 VAE 区别在于 dialogue 的 reconstruction 是生成的下一句 utterance,而不是 input 自身。这篇 paper 的前身是 HRED[6],HRED 的核心思想是,把 dialogue 看做是 two-level:dialogue 是 utterance 的组合,utterance 是 words 的组合。HRED 由 3 个 RNN 组成:encode RNN 把每个 utterance 变成 real-valued 的向量 u,context RNN 把每个 turn 里的 u 作为输入变成向量 c,最后把 c 交给 deocde RNN 生成下一个 utterance。
VHRED 在 HRED 的基础上每个 turn 里引入一个 latent variable z,z 由 context RNN 的 c 生成。z 的意义比较笼统,sentiment/topic 怎么解释都行。模型的训练技巧如 KL annealing 等大量借鉴了第一篇 paper 的思想,特别要注意训练时的 z 从后验采样(保证 decode 的正确性),测试时再从先验采样( KL 已经把分布拉近)。实验表明,latent variable 有助于生成更加 diverse 的回复。 — 05 — 其他 论文链接: https://arxiv.org/pdf/1605.06069.pdf 第一次将 VAE 引入机器翻译: 《Variational neural machine translation》EMNLP 2016 论文链接: https://arxiv.org/pdf/1605.07869.pdf 为了改进 KL 迅速降到 0,提出 convolutional 和 recurrent 结合的 VAE: 《A Hybrid Convolutional Variational Autoencoder for Text Generation》 论文链接: https://arxiv.org/pdf/1702.02390.pdf 参考文献 [1] Semi-supervised sequence learning [2] Skip-thought vectors [3] Distributed representations of sentences and documents [4] Pointer Networks [5] Recurrent models of visual attention [6] Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models (责任编辑:本港台直播) |