参与:PaperWeekly、机器之心 国际计算语言学协会 (ACL,atv,The Association for Computational Linguistics),是世界上影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。第 55 届国际计算语言学协会(ACL)年会将于 7 月 30 日-8 月 4 日在加拿大温哥华举行。 ACL 会议是计算语言学领域的首要会议,广泛涉及自然语言的计算方法及其各类研究领域。ACL 2017 除了主要会议之外,还如同其他顶级会议一样包含研讨会、专题报告、研习会和演示等。 4 月 22 日,中国中文信息学会青年工作委员会在北京举办了一场「ACL 2017 论文报告会」,邀请了国内部分被录用论文的作者针对其论文进行主题报告(参阅:ACL 2017 中国研究论文解读:读懂中国自然语言处理前沿进展)。从近日 ACL 2017 官网释放的消息来看,中国有四篇论文入选 ACL 2017 Outstanding Papers。 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 论文作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学) Visualizing and Understanding Neural Machine Translation 论文作者:丁延卓、刘洋、栾焕博、孙茂松(清华大学) Abstractive Document Summarization with a Graph-Based Attentional Neural Model 论文作者: Jiwei Tan、万小军(北京大学) Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 论文作者:郑孙聪、Feng Wang、Hongyun Bao(中科院自动化研究所) PaperWeekly 近期对其中的两篇获奖论文进行了详细的解读(部分论文未能找到公开地址)。 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 论文作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学) 特约记者:郑华滨(中山大学) 在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题。 如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步。在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免。近几年深度学习的发展给很多研究问题带来了全新的解决方案。在中文分词上,基于神经网络的方法,往往使用「字向量 + 双向 LSTM + CRF」模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低,如下图所示,其中: 字向量层(对应 Embedding Layer)能够把离散的汉字符号转化为连续的向量表示 双向 LSTM 网络(对应 Feature Layer)能够在考虑时序依赖关系的同时抽取有用的文本特征 最后的 CRF 模型(对应 Inference Layer)则建模了两个相邻输出的概率制约关系 强大的样本表示、特征抽取和概率建模能力,使它成为如今最主流的中文分词模型。
图 1:分词模型 除了模型和算法,中文分词准确率的提高更得益于丰富的公开训练语料集。然而,因为中文分词这个问题本身并不存在一个完全统一的标准,众多语料集之间都或多或少存在不一致的地方。由于语言学家定义了分词的多种不同标准,因此对于同一串汉字,不同的人可能会给出不同的切分结果。比如「姚明进入总决赛」这句话,在 CTB 和 PKU 两个语料集中就是不同的切分标准,前者认为「姚明」和「总决赛」是一个整体,后者却认为姓和名应该分开、「总」和「决赛」应该分开:
图 2:语料不一致 中文分语料丰富,每一份中文分词语料都是经过昂贵而耗时的人工标注得到的。又因为每份语料间的标准多少有些不一致,因而以往在训练一个分词模型的时候只会用一份语料,而置其他语料于不顾,这无疑是浪费,弃之可惜。所以现在一些研究者就在思考怎么同时利用多个语料集。如果能够想办法利用多个分词标准语料集的信息,就能让模型在更大规模的数据上训练,从而提升各个分词标准下分词的准确率。最近,来自复旦大学的陈新驰同学、施展同学、邱锡鹏老师和黄萱菁老师就提出了一个新框架,可以利用多标准的中文分词语料进行训练。实验在 8 个语料集上进行训练,并在 8 份语料上都提升了准确率。他们的论文 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 发表在今年的 ACL2017 上。值得一提的是,这四位作者中的陈新驰同学、邱锡鹏老师、黄萱菁老师同时也是上述「字向量 + 双向 LSTM+CRF」中文分词模型最初原型的提出者。 (责任编辑:本港台直播) |