本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【LeCun论战Yoav】自然语言GAN惹争议:深度学习远(2)

时间:2017-06-11 02:55来源:118图库 作者:开奖直播现场 点击:
让我们回到 ArXiv。Yoav 和其他人一直抱怨说,在 ArXiv 上发表的不完善的论文鼓励了“挖坑占坑”的行为:作者想到一个idea,快速但是马虎地实现这个想法

让我们回到 ArXiv。Yoav 和其他人一直抱怨说,在 ArXiv 上发表的不完善的论文鼓励了“挖坑占坑”的行为:作者想到一个idea,快速但是马虎地实现这个想法,然后在 ArXiv 上发表一个不怎么样的结果,期望第一个得到认可。有人认为这是不公平的,因为更重要的事情是研究,而不仅仅是得到一个想法。这完全正确。一个想法,或一项技术的演化过程,是得到idea,实现它,证明它能工作,让它在实验问题上工作,让它在一个真正的问题上与其他方法工作得同样好,让它打破纪录,提出一个使它工作的方法,从理论上解释它为什么工作,优化并简化它,将它一般化以适用其他问题,围绕着它开发新的技术,做成一个产品,销售产品……

这个过程中各个角色都应该获得不同程度的功劳。在科学的历史上,很少是最初提出idea的那个人包揽全部声誉(虽然我听说一些应该继续默默无名的人,声称全部功劳都应该是他的)。

在 ArXiv 上发表论文的过程比传统的出版模式更加有效。它当然不会取代传统的同行评议模式。是的,它改变了“声誉”应该归于谁的问题,但这没关系。

为什么迅速上传 ArXiv 的做法更高效?因为它遵循的是“市集”的协作模式,而非“大教堂”式的传统出版模式(参见 Eric Raymond 的“大教堂与市集”,)。在软件开发中,Linux 使用的为市集模式,即早发布、常发布;与之对应的是 GNU/Hurd 的大教堂模式,即直到获得完美无缺的版本之后才发布。市集模式无疑高效地多。

原因何在?ArXiv/ 市集模式嘈杂而混乱,但是因为反馈频繁而进展更快。这非常类似随机梯度和批量梯度之间的差异:随机梯度嘈杂而混乱,但快速高效得多。

对于一篇方法论马虎的半吊子论文仅凭一个想法就会获得认可的担心在我看来是多虑了。社群内通常都会分辨出真正的研究贡献并给予相应的认可。历来如此。

所有那些来自“深度学习”社群而非来自“自然语言”社群的论文都是 Yoav Goldberg 反对的对象

虽然 Yoav Goldberg 这次是在针对一篇论文,但实际上他想要传达的消息是更广泛的——所有那些来自“深度学习”研究社区而非来自“自然语言”研究社区的论文都是他反对的对象。

除了对ArXiv 预印版发表给出评论,Golenberg 在自然语言处理方面最强烈的观点还是他“深深地崇敬自然语言”。

在评论使用 GAN 生成自然语言的例子时,

* what everything they take everything away from

* how is the antoher headache

* will you have two moment ?

* This is undergoing operation a year.

“这些根本不符合语法规则(grammatical)!”是他给出的感叹,并且在原文中加粗表示。

同时,也让这场争议重新回到了语言学家 VS 计算机科学家的大背景中。

在第一篇文章引发意外多的反响后,Goldberg 再次在 Medium 撰文,重申并且澄清了他的一些观点。

首先,他针对 GAN 生成自然语言那篇论文的批评,并非是论文没有得出当前最佳的结果,而是“我想要看见一系列让人信服的实验,证明将新方法确实提出了值得关注的、新的有趣的结果”。

其次,他不认为论文作者使用模拟任务(toy task)有任何问题。“使用 toy task 是 OK 的,”Goldberg 写道,“往往还是好事(desirable)”。

第三,他的批评并非针对论文没有解决自然语言生成这一问题。“论文当然没有解决自然语言生成(NLG)的问题……没有那篇论文能够‘解决’NLG,就像没有那篇生物学论文能解决癌症一样。”Goldberg 认为,论文应该在题目或摘要里说明自己的工作和研究范畴。

最后,他也没有认为论文“incremental”有什么不好。实际上大多数论文都是“incremental”的。但论文作者需要明确地指出这一点。

导火索《自然语言对抗生成》讲了啥?

巧的是,对于这次争论的导火索——《自然语言对抗生成》(Adversarial Generation of Natural Language)这篇论文,新智元曾经在第一时间做过介绍,这里是传送门(【GAN X NLP】自然语言对抗生成:加拿大研究员使用GAN生成中国古诗词)。

  

wzatv:【LeCun论战Yoav】自然语言GAN惹争议:深度学习远

摘要

生成对抗网络(GAN)近来在计算机视觉界引起了很多注意,在图像生成方面取得了令人印象深刻的结果。但是,从噪音中对抗生成自然语言的进展与在图像生成方面的进展并不相称,仍远远落后于基于似然的方法(likelihood based methods)。本文中,我们单一以 GAN 为目标,生成自然语言。论文引入了一个简单的基准,解决了离散输出空间问题,不依赖于梯度估计函数(gradient estimator),并在一个中国诗词数据集上取得了当前最好的结果。论文还提供了从无上下文和随机上下文无关文法(probabilistic context-free grammar)生成句子的定量结果,以及语言建模的定性结果。论文还描述了一个能够根据句子条件特征生成序列的条件版本(conditional version)。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容