Callison-Burch 的团队正在使用结合了自然语言处理和人类评论的系统建立一个枪支暴力信息数据库,这一点很像 MIT 所训练的系统。「我们已经爬取了数百万新闻文章,然后通过分类器提取出和枪支暴力相关联的文本文章,随后我们再手工进行信息提取,如果能有一个像 Regina 那样的模型,我们就可以通过它预测已经标注的文章是否与之相关,这将节省我们非常多的时间,这也就是未来我很兴奋去做的一件事情。」 论文:Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
摘要:大部分成功的机器学习提取系统在运行时都可以访问一个大型文件集。在这项研究中,我们探索了获取并结合外部证据来提升多个训练数据稀少的域中的提取精确度。这个过程需要发布搜索查询,从新的来源中提取数据,并对提取的值进行调和,这一过程一直重复到收集到足够的证据为止。我们使用了一个强化学习框架,在这个框架中我们的模型会基于情境信息学习去选择最优的行动。我们还应用了一个 Q-network,训练它来优化一个奖励函数,这个奖励函数反映了提取精确度的同时还会惩罚额外的工作。我们在两个数据集上做了试验,一个是枪击案件,一个是食品掺假情况,证明了我们系统的表现显著优于传统的提取器,以及一个极具竞争力的元分类基线。 ©本文为机器之心编译文章,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |