受神经机器翻译模型【11】的启发,Mei等将基于结构化数据的文本生成任务视为一个翻译任务,即输入的源语言是结构化数据,输出的目标语言是文本【3】。很自然的,神经机器翻译模型可以解决怎么说的问题。为了进一步解决说什么的问题,Mei等在神经机器翻译模型的基础上引入了对数据记录的重要性进行建模的机制,即越重要的数据,其先验概率越大,越有可能在文本中被表达出来。 基于神经语言模型的方法和基于神经机器翻译的方法在特定数据集上都取得了较大的进步,其本质仍然是Sequence-to-sequence方法的胜利。 >>>> 数据 为了推动文本生成技术的发展,研究人员们将相关数据集共享给学术界研究使用。本文对部分数据集进行了收集和整理: (1)斯坦福大学的Percy Liang教授共享了一份天气预报数据集【7】。这份数据集包括了美国3753个城市(人口大于10000)连续三天的天气预报。 数据集下载地址为:https://cs.stanford.edu/~pliang/data/weather-data.zip (2)德克萨斯大学奥斯汀分校的Raymond J. Mooney教授共享了机器人足球赛的数据集【12】。这份数据集包括了2036场机器人足球赛的数据统计和评论。 数据集下载地址为:~ml/clamp/sportscasting/data.tar.gz (3)Facebook共享了维基百科人物传记的数据集【10】。这份数据集包括了728,321篇从维基百科获取的人物传记。 数据集下载地址为:https://github.com/DavidGrangier/wikipedia-biography-dataset (4)剑桥大学的Tsung-Hsien Wen共享了基于服务的人机对话数据集【8】。这份数据集包括了248轮餐馆领域的对话和164轮酒店领域的对话。 数据集下载地址为:https://github.com/shawnwun/RNNLG/tree/master/data/original 总结和展望 综上,基于结构化数据的文本生成技术已经在商业领域获得了初步的成功,深度学习技术的发展和大数据的积累也推动着相关技术的进步。相信该领域会在技术、数据和商业的三重驱动下取得更大的突破。
参考文献 【1】刘挺,机器人来了,记者去哪儿, 【2】徐曼,国外机器人新闻写手的发展与思考, 【3】Mei, Hongyuan, T. T. I. UChicago, Mohit Bansal, and Matthew R. Walter. 2016. What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment. In Proceedings of NAACL-HLT. 【4】Reiter, Ehud. 2007. An architecture for data-to-text systems. In Proceedings of ENLG. 【5】Gkatzia, Dimitra, and Saad Mahamood. 2015. A Snapshot of NLG Evaluation Practices 2005-2014. In Proceedings of ENLG. 【6】Barzilay, Regina, and Mirella Lapata. 2005. Collective content selection for concept-to-text generation. In Proceedings of EMNLP. 【7】Liang, Percy, Michael I. Jordan, and Dan Klein. 2009. Learning semantic correspondences with less supervision. In Proceedings of ACL. 【8】Wen, Tsung-Hsien, Milica Gasic, Nikola Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of EMNLP. 【9】Kiddon, Chloé, Luke Zettlemoyer, and Yejin Choi. 2016. Globally coherent text generation with neural checklist models. In Proceedings of EMNLP. 【10】Lebret, Rémi, David Grangier, and Michael Auli. 2016. Neural text generation from structured data with application to the biography domain. In Proceedings of EMNLP. 【11】Bahdanau, Dzmitry, KyungHyun Cho, Yoshua Bengio, and Roee Aharoni. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of NIPS. 【12】Chen, David L., and Raymond J. Mooney. 2008. Learning to sportscast: a test of grounded language acquisition. In Proceedings of ICML. 作者简介 (责任编辑:本港台直播) |