本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

时间:2017-08-03 18:32来源:天下彩论坛 作者:j2开奖直播 点击:
报道:闻菲,刘小芹 【新智元导读】 计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就奖。本年度最佳长论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳

报道:闻菲,刘小芹

【新智元导读】计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就。本年度最佳论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳短论文则是法国和日本研究人员探讨韵律和语域对词语切分影响的工作。最佳资源论文得主是康奈尔大学和 Facebook 合作的用于视觉推理的自然语言语料库。南加州大学交互式诗词生成系统获得了最佳演示论文。新智元以前曾经报道过的 OpenNMT 获得了最佳演示论文提名。

会议同时公布了“终身成就奖”——哈佛大学的 Barbara J. Grosz 教授,她在自然语言处理、多智能体系统等领域做出了开创性的贡献。

【进入新智元公众号在对话框直接输入ACL2017 下载全部获奖论文】

最佳长论文:概率类型学:元音库深度生成模型

【ACL 2017最佳论文解读】NLP数据成热点,<a href=j2直播,哈佛教授" src="http://www.wzatv.cc/atv/uploads/allimg/170803/1T04c137_0.jpg" />

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

摘要

语言类型学(Linguistic typology)研究的是人类语言中存在的结构范围。该领域的主要目标是发现哪些可能的现象是普遍存在的,而哪些只是频繁而已。例如,所有的语言都有元音,而大多数语言(而不是全部)都有 [u] 的发音。在本文中,我们针对语音类型学中基本的一个问题——什么才算一个自然的元音库?——给出了首个概率性的处理。我们介绍一系列深度随机点过程(deep stochastic point processes),并将其与以前的计算方法和基于模拟的方法进行对比。我们提供了一整套超过 200 种不同语言的实验。

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

总结

为了分析语音类型学研究的数学基础,我们提出了一系列点过程模型(point process models),用于元音系统库(vowel system inventory)类型学的建模。所有的模型都另外被深度参数化(deep parameterization)来学习与认知科学中知觉空间相似的表示(representation)。此外,我们认为在语言类型学中,我们以前提出的概率建模比计算建模更好,我们认为概率建模是一种更自然的研究范式。此外,我们引入了几个新颖的元音系统研究评估指标,希望这能引发对这一领域更多的兴趣。这些指标的性能经过了 Becker-Kristal 语料库的实证验证,其中包括来自 200 多种语言的数据

最佳短论文:从计算建模的角度看韵律和语域在词语切分中的作用

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

摘要

本研究探讨了词语切分任务中语域(speech register)和韵律的作用。由于这两个因素被认为在早期语言习得中具有重要的作用,我们的目标是量化这两者对词语切分任务的贡献。我们研究了一个同时含有婴儿和成人导向言语(infant- and adult-directed speech)的日语语料库,并且在上面应用了 4 种不同的词语切分模型,有拥有韵律边界(prosodic boundaries)知识的,也有不含韵律边界知识的。结果表明,语域(register)之间的差异比以前文献报道过的要小,相比婴儿导向言语,韵律边界信息对成人导向的言语更有帮助。

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

结论

我们检查了在两种匹配的自发 ADS 和 IDS 语料库,以及一个更正式的 ADS 控制语料库上 4 种不同的词语切分算法的性能,它们都具有和不具有韵律上的停顿(prosodic break)。我们发现,总体而言,sub-lexical 算法的效果不如词法算法(lexical algorithms),IDS 整体上略微简单或者等同于非正式的 ADS,本身比 ADS 简单。此外,在所有算法和语域中,我们观察到韵律有助于进行词语切分。

然而,韵律的影响是不平等的,并且与语域相互作用:韵律对 ADS 的帮助比对 IDS 的更多,当韵律被纳入考虑时,自发的 ADS 和 IDS 产生了类似的得分。

这对语言习得理论有影响,因为 IDS 被认为是为婴儿提供“超级言语” (hyperspeech),也即简化的语言习得的输入。如果我们的观察结果是真实的,j2直播,就词语切分而言,IDS 比 ADS 更容易切分,至少在婴儿已经获得使用韵律停顿的能力来控制(constrain)词语切分的阶段。当然,我们的观察需要用其他语言和记录过程(recording procedure)来确认和复制(replicate)。

总而言之,我们的研究表明了使用量化工具测试语言习得理论的作用。

最佳资源论文: 一个用于视觉推理的自然语言语料库

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授

摘要

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容