本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】观点|宋睿华:好玩的文本生成

时间:2016-12-26 21:41来源:报码现场 作者:118开奖 点击:
文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。 二零一六年里,关于文本

wzatv:【j2开奖】观点|宋睿华:好玩的文本生成

文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。

二零一六年里,关于文本生成有许多的新闻事件,引起了学术界以外对这一话题的广泛关注。

2016年3月3日,MIT CSAIL【1】报道了,MIT计算机科学与人工智能实验室的一位博士后开发了一款推特机器人,叫DeepDrumpf,它可以模仿当时的美国总统候选人Donald Trump来发文。

2016年3月22日,日本共同社报道,由人工智能创作的小说作品《机器人写小说的那一天》入围了第三届星新一文学的初审。这一项以被誉为“日本微型小说之父”的科幻作家星新一命名。提交小说的是“任性的人工智能之我是作家”(简称“我是作家”)团队【2】。

2016年5月,美国多家媒体【3】【4】报道,谷歌的人工智能项目在学习了上千本浪漫小说之后写出后现代风格的诗歌。

基于人工智能的文本生成真的已经达到媒体宣传的水平了吗?这些事件背后是怎样的人工智能技术?关于机器人写小说的工作,我们会在另一篇文章《会有那么一天,机器人可以写小说吗?》里进行深入的讨论,他们的工作更多的是基于模板的生成。在这篇文章里,我们主要想通过三篇文章介绍另一大类方法,即基于统计的文本生成。

  第一篇 令人吃惊的Char-RNN

关于基于深度学习的文本生成,最入门级的读物包括Andrej Karpathy这篇博客【5】。他使用例子生动讲解了Char-RNN(Character based Recurrent Neural Network)如何用于从文本数据集里学习,然后自动生成像模像样的文本。

图一直观展示了Char-RNN的原理。以要让模型学习写出“hello”为例,Char-RNN的输入输出层都是以字符为单位。输入“h”,应该输出“e”;输入“e”,则应该输出后续的“l”。输入层我们可以用只有一个元素为1的向量来编不同的字符,例如,h被编为“1000”、“e”被编码为“0100”,而“l”被编码为“0010”。使用RNN的学习目标是,可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中,根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>,最大的一维是第三维,对应的字符则为“0010”,正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大,对应的并不是“e”,这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型,对任何输入字符可以很好地不断预测下一个字符,如此一来就能生成句子或段落。

wzatv:【j2开奖】观点|宋睿华:好玩的文本生成

Andrej Karpathy还共享了代码【6】,感兴趣的同学不妨下载来试试,效果会让你震惊。Andrej Karpathy在底层使用的RNN的具体实现是LSTM(Long-Short Term Memory),想了解LSTM可以阅读【7】,讲得再清楚不过。

研究人员用Char-RNN做了很多有趣的尝试,例如,用莎士比亚的作品来做训练,模型就能生成出类似莎士比亚的句子;利用金庸的小说来做训练,模型就能生成武侠小说式的句子;利用汪峰的歌词做训练,模型也能生成类似歌词的句子来。

在本文一开始提到的【1】,MIT计算机科学与人工智能实验室的博士后Bradley Hayes也正是利用类似的方法开发了一款模仿候任美国总统Donald Trump的推特机器人,叫DeepDrumpf。例如,图二中,这个机器人说,“我就是伊斯兰国不需要的。”

  

wzatv:【j2开奖】观点|宋睿华:好玩的文本生成

据作者介绍,他受到一篇模拟莎士比亚的论文启发,以Donald Trump的演讲和辩论(时常大约几个小时)的字幕作为训练语料,使用深度神经网络学习去训练Trump的模型。他也声称,因为有一篇文章调侃Trump的发言只有小学四年级的水平,因而想到用Trump的语料可能是最容易控制的。

这是一个有趣的应用,记者评论称这个机器人也并不是总能写出好的句子,但至少部分是通顺的。其实,风格并不是很难学到,只要使用的训练语料来自同一个人,而这个人的写作或者发言具有辨识度高的特点

  第二篇 深度学习生成对话

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容