wzatv:EMNLP最佳论文公布，“让发明自己语言的AI说人话_本港台直播_J2开奖直播

2017-08-18 12:36 来源:量子位

李林编译整理

wzatv:EMNLP最佳论文公布，“让发明自己语言的AI说人话

自然语言处理领域的学术会议EMNLP今天评出了四篇最佳论文：最佳长论文两篇、最佳短论文和最佳资源论文。

EMNLP的全称是Conference on Empirical Methods in Natural Language Processing，自然语言处理中的经验方法会议，由国际语言学会（ACL）的SIGDAT小组主办，今年9月7-11日将在丹麦哥本哈根举行。

下面是本届EMNLP评出的几篇最佳XX论文。量子位决定先说最佳短论文，因为它比较好玩：

最佳短论文

Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog

PDF：https://arxiv.org/pdf/1706.08502.pdf

作者：Satwik Kottur, José M.F. Moura, Stefan Lee, Dhruv Batra

（来自卡耐基梅隆大学、弗吉尼亚理工学院、乔治亚理工和Facebook AI研究院）

你可能注意到了这篇论文的最后一位作者：Facebook研究员Dhruv Batra。

前段时间被炒得沸沸扬扬的“AI发明了自己的语言”事件，最初起源于Facebook一项的研究，Batra正是参与者之一，也是后来忍无可忍出来的那位。

本论文的几位作者虽然来自不同机构，但之前就在这个领域有合作，共同参与了一篇题为Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning的论文，这篇论文表明，两个AI可以通过讨论和分配颜色和形状值来发明自己的通信方式。

今天获奖的这篇，再次阐述了AI自己发明语言是非常正常的事情，但是，AI自己发明的通信方式通常都“不是人话”，论文还探索了能如何限制AI的通信规则，哄骗它们“说人话”。

几位作者在论文中以Task & Talk推理游戏为测试平台，来让两个agent沟通。

wzatv:EMNLP最佳论文公布，“让发明自己语言的AI说人话

Task & Talk游戏是这样的：有一个虚拟的世界，j2直播，其中的物体有4种可能的形状、4种可能的颜色、以及4种可能的样式。负责回答问题的A-BOT拿到一个物体，然后Q-BOT的任务是通过向A-BOT提问来搞清楚物体的一对属性。

实验产生了一系列“负面”的结果之后，最终得到了一个“正面”结果。这表明，大多数agent发明的语言（对它们自己来说）都是有效的，能达到获取任务奖励等目的，但它们显然不能被人所理解。他们在论文中写道，“实际上，我们发现自然语言并不会‘自然地’出现。”

在这篇论文中，作者也讨论了如何通过在两个agent的沟通方式上增加限制条件，来“哄骗”它们，让他们发明的语言越来越接近人类，能被人所理解。

最佳长论文

Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints

PDF：https://arxiv.org/pdf/1707.09457.pdf

作者：Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang

（来自弗吉尼亚大学和华盛顿大学）

这篇论文提出了一种方法，要通过语料库级的限制来减轻性别偏见在机器学习模型训练过程中的扩大。

在多标签物体识别、视觉语义角色标注等图像识别任务，都涉及到自然语言。在研究这类问题时，研究者们通常会使用结构化的预测模型和从网上搜集图片数据，这些数据也带来了一些社会偏见。

研究发现，这些任务的数据集就显示出了巨大的性别偏见，而用这些数据集训练出来的模型，会将已有的偏见放大。

wzatv:EMNLP最佳论文公布，“让发明自己语言的AI说人话

比如说做饭这件事。虽然标题叫men also like shopping，但文章中最主要的例子是“cooking”。

在训练集中，做饭这个行为涉及女性的概率比男性要高33%，而用这样的数据集训练出来的模型，会放大这种偏见，在测试时，男女之间的差异被扩大到了68%。

于是，论文作者提出了用语料库级的限制来校准预测模型，并为集合推理（collective inference）设计了一种基于拉格朗日松弛的算法。使用这种方法之后，模型的识别性能几乎没有损失，atv，但在多标签分类任务和视觉语义角色标注任务中表现出的偏见分别降低了47.5%和40.5%。

量子位想提议另一种途径，从根本上解决这个问题：男同学们多做饭，多拍照，发到网上��

Depression and Self-Harm Risk Assessment in Online Forums

论文尚未公开

作者：Andrew Yates、Arman Cohan、Nazli Goharian

（来自马克思普朗克信息研究所和乔治城大学）

我们目前还没有看到全文，从标题来看，这篇论文是要通过线上论坛中的内容，来评估用户的抑郁和自残风险。

最佳资源论文

Crowdsourcing a Benchmark of Concept Maps

PDF：https://arxiv.org/pdf/1704.04452

作者：Tobias Falke、Iryna Gurevych

（来自德国达姆施塔特工业大学）

(责任编辑：本港台直播)