推荐阅读的第二篇文章是诺亚方舟实验室的尚利峰、吕正东和李航在2015年ACL大会上发表的“Neural Responding Machine for Short-Text Conversation” 【9】。大家也许听说过微软小冰,它因为开创性的主要做闲聊(即以娱乐为目的的聊天)式对话,被哈尔滨工业大学的刘挺教授誉为是第二波人机对话的浪潮的代表【8】。小冰的出现也影响到了学术界。除了原来做知识性的问答,一些研究也开始关注闲聊,让机器人和人类搭话,这方面诺亚方舟实验室发表了一系列有影响力的文章。今天介绍的这篇文章在Arxiv.org上发布短短一年时间,已经有67次的引用。 【9】这篇文章尝试用encoder-decoder(编码-解码)的框架解决短文本对话(Short Text Conversation,缩写为STC)的问题。虽然encoder-decoder框架已经被成功应用在机器翻译的任务中,但是对话与翻译不同,对应一个输入文本(post)往往有多种不同的应答(responses)。文中举了一个例子,一个人说“刚刚我吃了一个吞拿鱼三明治”,不同的应答可以是“天哪,才早晨11点”、“看起来很美味哟”或是“在哪里吃的”。这种一对多的情况在对话中很普遍也很自然。的确,不同的人会对同一句话做出不同的反应,即使是同一个人,如果每次回答都一模一样也是很无趣的。 针对这一特点,作者们提出Neural Responding Machine(简称NRM,见图三)框架来解决短文本对话的问题。他们尝试了全局编码和局部编码,最终发现先分别训练,再用图四的结构来做微调训练,效果最佳。全局编码的优点是能够获得全局信息,同样的词在不同情境下会有不同的意义,全局信息可以部分解决这类情况;缺点是,它供给解码的输入比较固定。局部编码利用局部信息,比较灵活多样,刚好可以缓解全局编码的弱点。
这篇论文的另一大贡献是构建了一个比较大的数据集和标注来评价不同的方法。通过对比,所提出的混合全局和局部的方法比以往基于搜索的方法和机器翻译的方法都要好很多。机器翻译的方法生成的句子往往不通顺,得分最低。能比基于搜索的方法好很多也非常不容易,因为基于搜索的方法得到的已经是人使用过的应答,不会不通顺。大家可以在图五的实例中直接感受一下生成的效果。NRM-glo是全局编码的模型,NRM-loc是局部编码的模型,NRM-hyb是混合了全局和局部的模型,直播,Rtr.-based则是基于搜索的方法。 2015到2016年,这篇论文的作者组织了NTCIR-12 STC任务【10】,公开他们的数据集,并提供公共评测。有16个大学或研究机构参加了中文短文本对话任务的评测。2017年,他们将会继续组织NTCIR-13 STC【11】,现已开放注册【12】。除了上一届的基于搜索的子任务,这一次还设立了生成应答的子任务。我们预计今年的结果会更精彩。 第三篇 被媒体误解的谷歌人工智能写诗 第三篇文章是Samuel Bowman等发表在Arxiv.org上的名为“Generating Sentences from a Continuous Space”的文章【13】。作者分别来自斯坦福大学、马萨诸塞大学阿姆斯特分校以及谷歌大脑部门,工作是在谷歌完成的。 这一工作曾被媒体广泛报道,但我发现很多报道(例如【3】【4】)都对论文的工作有一些误解。一些记者将图六所示的文字误认为是机器人写出来的后现代风格的诗歌,其实不然。这只是作者在展示他们的方法可以让句子级别的编码解码更连续。具体而言,在他们学习到的空间中,每个点可以对应一个句子,任意选定两个点,例如在图六中,一对点对应的句子分别是“i want to talk to you.”和“she didn’t want to be with him”,两点之间的连线上可以找出间隔均匀的几个点,将它们也解码成句子,会发现,这些句子好像是从第一句逐渐变化成了最后一句。 得到这样的结果实属不易。在文章的一开始,作者就给出了一个例子,来说明传统的自动解码并不能很好地编码完整的句子。如图七所示,从句子“i went to the store to buy some groceries”到句子“horses are my favorite animals”,中间取的点经过解码得到的句子呈现在它们之间。可以发现,这些句子未必是符合语法的英文句子。与之相比,图六呈现的句子质量要好很多,不仅语法正确,主题和句法也一致。 (责任编辑:本港台直播) |