他们接着描述了自己使用的两个语法:一个是玩具语法(至少他们承认是玩具!),它有 248 条生成规则(!!),另一个是有着 45 个字符的单词(!!!),而且他们还生成了包含 11 个这种单词的句子(!!!)。恩,确实很厉害! 但是等一下,让我们查看一下实际的语法文件(来自霍普金斯大学的 Jason Eisner 的家庭作业,语法非常非常简单,你甚至可以扩展它)。在 248 个生成规则中,只有 7 个是实际有效的。是的,7 个。余下的是词法规则(lexical rule),即预-终端符号到词汇项目的映射。但是,稍等,词汇量是 45 个字符,45+7=52。那其他的 192 个规则在哪里?至少其中的 182 个是从「Misc」符号到一些字词的映射规则。「Misc」符号并不参与语法,它对学生来说是可以扩展的家庭作业。因此,论文作者实际上使用了 52 个生成规则,而不是其所称的 248 个,其中只有 7 个是真实规则。他们甚至没有检查语法或者正确描述它。这确确实实是一个玩具似的语法。 现在是第二个语法,它源自 Penn Treebank 语料库。论文中并没有关于第二个语法的详细细节,但是他们确实说了他们限制了语料库中 2000 个最常用字词的生成。下面是这个语料库中的一个典型句子,当字词不是最常用的 200 个之一时,就以下划线替代: _ _ _ Inc. said it expects its U.S. sales to remain _ at about _ _ in 1990 . 顺便说一句,这是 20 个字词。 下面是另一个句子: _ _ , president and chief executive officer , said he _ growth for the _ _ maker in Britain and Europe , and in _ _ markets . 对于这个更复杂的语法,他们通过查看语法对其生成的样本所分配的可能性来评估模型。 我不确定这一评估的目的是什么,它试图想表现什么。它并没有明晰地测量生成的质量。但是他们说: 「尽管这样一个测量通常会捕捉到一个句子的语法性,但它依然是样本质量的一个合理代表(proxy)。」 并不是。源自语料库的 PCFG 喜欢完全不捕捉句子的语法性,并且如果你关心逼真自然语言的生成,这并不是一个样本质量的合理代表。 这些家伙应该之前就向从事自然语言的研究者咨询一下。 他们也使用了一个汉语诗歌语料库。这是自然语言吗?是的。除了他们并不查看完整诗歌这个事实之外,他们还从每首诗歌中分离每个句行,并单独处理。并且他们只使用长度为 5 和 7 的句行。他们甚至不查看被生成的句行,但是使用 BLEU-2 和 BLEU-3 评估它们。对于不知道 BLEU 的人来讲,BLEU-2 大体是指计算他们生成且出现在参考文本中的 bigram(二词子序列)的数量;BLEU-3 是指计数三词子序列。他们也有一个奇怪的观察,是关于评估每个被生成的句子,在作为参考的训练集的所有句子的背景下。我并不完全明白这一部分,但它时髦,也并不是关于如何使用 BLEU。 他们说这是其以前评估反对使用这个语料库的语言生成对抗网络论文的设置。 当然。 在简单的语法上(52 个生成规则,45 个字符的词汇量),他们的模型能够拟合 5 个字词的句子,并且他们更复杂的模型几乎成功地拟合了 11 个字词的句子。 Penn Treebank 句子并没有真正被评估,但是通过比较 epoch 上的样本可能性,我们看到它在下降,他们的一个模型取得了更高的分数,相比于被称作 MLE 的一些 GAN 基准(他们并没有完整描述,但是在以前蹩脚的语言生成对抗网络的工作中出现过)。哦,他们生成了长度为 7 的句子。 我之前已经说过,PCFG 的可能性对于评估被生成句子的质量相当没有意义。但是即使出于某些原因你关心这一指标,但是我打赌一个非 GAN 基准(比如一个无调试的 Elman RNN)将远远比这一指标更好。 汉语诗歌生车测试再一次只与之前的生成对抗网络工作比较了结果,而不是与一个合适的基准,并报告了最大为 0.87 的 BLEU 值,BLEU 分数通畅大于 10,因此我并不确定这里发生了什么。但是在任何情况下他们的 BLEU 设置从一开始就是奇怪且毫无意义的。 接着是表 3、4、5,在其中他们展示了其模型中生成的真实句子。我希望它们没有经过优选,但是它们真的非常糟糕。 上文中我已展示了一些样本,下面是另一些: I'm at the missouri burning the indexing manufacturing and through . Everyone shares that Miller seems converted President as Democrat . Can you show show if any fish left inside . Cruise pay the next in my replacement . Independence Unit have any will MRI in these Lights 在提到含有这些句子的表格的某些地方,论文这样描述: 「带有一个 WGAN-GP 目标的 CNN 模型似乎能够在更长的时间跨度中保持语境。」 「自然语言的对抗性生成」,确实。 一个恳求 (责任编辑:本港台直播) |