本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【图】深度 | 不要只看论文,缺乏工程实践才是深度学习研究的瓶颈(2)

时间:2017-01-20 16:40来源:报码现场 作者:j2开奖直播 点击:
我认为, atv ,我们低估了这一事实:我们是在和纯软件打交道。听起来似乎显而易见,但是,兹事体大。在诸如医学或心理学领域,设计牢牢加以控制的

我认为,atv,我们低估了这一事实:我们是在和纯软件打交道。听起来似乎显而易见,但是,兹事体大。在诸如医学或心理学领域,设计牢牢加以控制的实验几乎不可能,工作量也相当庞大。而软件领域基本上是自由的。这一领域比我们绝大多数所认为的那样还要独特。但是,我们并没有这么做。我相信,这些变化(以及许多其他变化)还未发生的原因之一在于动机不对称。说实话,几乎所有研究人员更关心论文发表、引证率以及可授予终身教职的聘任制度,而不是真地推进这个领域。他们对有利于自己的现状很满意。

缺乏精确性(rigor)

第二问题与第一个问题密切相关。上文也暗示过了。就是缺乏精确性和可重复性。理想状态是,研究人员可以控制住所有无关变量,采用新的技术,然后展示各种基线的改善情况(在显著边际内)。貌似显而易见?好吧,如果你碰巧读了很多深度学习方面的论文,那么,你会觉得这个理想状态就像直接源自科幻电影。

实践中,当每个人采用不同框架和流程再度实现技术时,比较会变得没有意义。几乎每个深度学习模型在使用过程中都会存在很多会影响结果的「隐藏变量」,包括加进代码中的不明显的模型超参数,data shuffle seeds,变量初始化器以及其他论文通常不会提及的东西,但是,很明显它们会影响最终测量结果。当你用一个不同的框架重新使用你的 LSTM,预处理数据并写下几千行代码,你创造了多少混杂变量?我猜几百甚至几千个吧。如果你可以证明较之基准模型,有 0.5% 的边际改进,你怎么证明它们之间的因果关系?你咋知道这个结果就是结合某些混杂变量的结果?

我本人根本不相信论文结果。我读论文更多是为了获取灵感——关注论文的想法,而不是结果。这不是个应然问题。如果所有的研究人员都发布代码,会怎么样?会解决问题?实际上,并非如此。将 1 万条代码未入文献的代码放到 Github 上,说「在这里,运行这个指令,复制我的结果。」,这和生产人们愿意阅读、理解、证实和以此为基础进行研究的代码不是一回事。这就像望月新一证明 ABC 猜想,除了他,没人看得懂。

再一次,「不过是个工程问题(just engineering)」有望解决这个难题。解决方案和问题 1(标准代码、数据组、评估实体等)解决方案差不多,但问题也差不多。实际上,发表具有可读性的代码,可能并不最有利于研究人员。如果人们找到 bug 怎么办?需要收回论文吗?除了为你效劳的单位做公关,没有其他清楚的好处,发表代码是在冒险。

  原文:

  ©本文由机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容