从表一可以看出,主题规划作诗方法几乎在所有的评测维度以及平均得分上都领先于其他基线系统,尤其在相关性和有意义性方面优势非常明显,只有在五言诗的押韵和流畅度评价上略低于 ANMT 系统(基于关注度的 NMT)。其可能的原因有两点:(1) ANMT 是一个非常强的基线系统,与 PPG 系统的区别只在于 PPG 考虑了主题词,而 ANMT 不考虑主题词;(2) 在五言诗的生成过程中,由于每句诗只有 5 个字,而 PPG 系统需要把主题词放置到生成的诗句中,这对于短句来说是很困难的事情,很容易造成不押韵或者流利度下降的情况。 随机盲测实验:机器自动作诗 PK 古代诗人 论文还做了一个非常有趣的随机盲测实验。找了 20 首由古代诗人写的古诗,和 20 首机器生成的诗打乱放在一起,让参评用户来猜哪一首是古代诗人写的。每一次会向参评用户展示 A 和 B 两首诗,其中一首为古代诗人所作,另一首为机器所生成。给用户三个选项:(1) A 诗是古代诗人写的;(2)B 诗是古代诗人写的;(3)无法判断哪首是古代诗人写的,放弃。给出选项 (3) 的目的是防止参评用户在无法判断的时候盲目猜测。 这个实验一共进行了两组,第一组实验邀请了 36 位普通用户(均为大学本科以上学历),称之为普通用户组(Normal Group)。第二组实验请了 4 位专修中国文学专业的用户进行实验,称之为专家组(Expert Group)。实验结果如图四所示。
图四:自动作诗 vs. 古代诗人,普通和专家用户分别选出哪个是真正古代诗人的作品 从图四可以看出,对于普通用户,只有 50% 的真实诗歌可以被正确分辨出来,其余的 50% 用户判断错误或者放弃。而对于专家用户,判断正确的比例达到 84%,其余 16% 的诗歌被判断错误或者放弃。由此可见,对于普通用户而言,自动生成的诗歌质量几乎已经达到了以假乱真的程度,但是如果想骗过研究中国文学的专家,则还有很长的路要走。 下面给出盲测实验中的一组对比诗歌,其中一首是计算机自动生成的,另一首是宋代诗人葛绍体写的(如图五所示)。如果不看答案的话,读者是否能猜出哪一首是计算机写的,哪一首是诗人葛绍体所作呢?(答案在本文文末给出)
图五:随机盲测实验示例,两首诗中有一首是计算机生成的,另一首是宋代诗人葛绍体所作,请读者猜一下哪首是计算机写的诗。答案在本文文末揭晓。 主题规划技术中引入外部知识 在主题规划阶段,主题词不仅可以通过对语料的共现统计得到,还可以通过引入外部知识来扩展主题词。如果要为一位作家写一首诗(例如,Query=冰心),可以通过百度百科挖掘她的作品作为主题词(如《春水》、《繁星》、《往事》);如果要为一个现代名词写一首诗(例如,Query=啤酒),可以挖掘网页、搜索日志等数据,找出与啤酒相关的主题词(如香醇、清爽、醉)。主题规划使得我们可以灵活的控制诗歌的内容,从而实现一些语料库没有覆盖的主题诗歌生成。 自动作诗 PK 古代诗人答案揭晓 图五自动作诗 vs. 古代诗人的答案,左边「一夜秋凉雨湿衣」为计算机生成的诗歌,右边「荻花风里桂花浮」为宋代诗人葛绍体所作,出自《东山诗文选》。你猜对了吗? (责任编辑:本港台直播) |