你也许想知道是否基于字符建模就是最终我们所需的方法,还是这里依然还有其它可能很重要的技术。事实上SyntaxNet还可以提供更多,例如集束搜索( beam search)和不同的训练目标,当然这里还有许多其他的可能。为了找寻在实际运用中最有效的方法,我们正与其他相关机构共同筹办一个多语言解析比赛,它将在今年的计算自然语言学习会议(CoNLL)上进行。这项比赛的目标是构建一个可以在现实世界环境中,针对45种不同语言可以良好运行的句法解析系统。 这项比赛是通过Universal Dependencies (UD)提出倡议而实现的,其目标是开发跨语言一致的树库。由于机器学习到的模型只能与它们访问到数据一样好,因此我们自2013年以来一直在为UD提供数据。对于这项比赛,我们与UD和DFKI合作建立一个全新的多语言评估集,atv,这里面包含1000个已被翻译成20多种不同语言的句子,并由语言学家用解析树(parse trees)进行注释。这个评估集是第一次被提出(在过去,每种语言都有自己独立的评估集),并将实现更一致的跨语言比较。因为句子具有相同的含义并且已经根据相同的准则被注释,我们将能够更进一步地回答哪种语言可能更难解析的问题。 我们希望升级版的SyntaxNet框架和预训练的ParseySaurus模型将激励研究人员参与到比赛中来。我们还创建了一个教程,介绍如何在Google云端平台上加载 Docker图像及训练模型,以方便只有有限资源的小团体参与。所以,如果你有一个想用SyntaxNet框架训练一个自己的模型,那就快点注册报名吧!我们相信我们现在发布的开源项目是一个好起点,与此同时我们同样期待参与者将如何扩展和改进这些模型,甚至创造出更好的模型! (责任编辑:本港台直播) |