据美国知名博客ArsTechnica1月25日报道, 美国国家情报局下属高级情报研究计划局(IARPA)宣称,他们发起了一项名为“对任何语言信息进行英文检索的机器翻译(MATERIAL)”的新项目,希望参与者研发出一款相当于终极版“谷歌翻译”的产品,让全球科研工作者和分析师们能从全球超过7000种口语中,对相关领域的文档进行搜索。
IARPA发布的通告称,具体来说,它是一款“英语输入、英语输出”的信息检索系统,给定一个范围的英语请求,它将从大量多语言的“仓库”中检索出相关数据,并用英语将检索信息显示出来,就像对请求内容的总结。 通告解释称:“用户将能用一个由两部分组成的搜索请求搜寻大量文档:第一部分给出他们正在搜索信息的搜索‘域’,例如,政府、科学、或健康等;第二部分则是一个英文单词或句子,对搜索信息进行描述,例如‘寨卡病毒(zika virus)’和阿斯伯格综合征(Asperger's syndrome)等。” 多年来,所谓的“低资源”语言一直是情报和防御部门重点关注的领域。2014年,美国国防部高级研究计划局(DARPA)发布了“紧急事件的低资源语言(LORELEI)”项目。该项目计划建造了一套系统,让军队能在短时间内,从任何语言来源中,快速收集关键数据,开奖,例如“话题、名字、事件、情绪以及关系等”。这套系统将被用于自然灾难等环境,或用于在偏远地区进行的军事干预,在这些地方,军队可能缺乏或者根本没有当地的语言专家。 大部分现有翻译工具存在的主要问题在于,它们需要针对目标语言进行大量训练,在此过程中,翻译性能的不断提升可能需要耗费很长时间;而且极度仰仗训练者的专业程度。此外,语言的正式和非正式使用之间存在巨大差异,且语境不同,语言的含义可能也不同。要想对存在如此多变量的文本进行可靠的翻译,可能需要对翻译机器进行数年培训以及不断提升改进。 在单个系统中,对每种语言那么做,j2直播,即使只是为了得到文本内容的简要概述,都将是一个苛刻的要求。有鉴于此,就像IARPA的通告中所说的那样,MATERIAL的目标之一,“是显著减少能执行英语输入、英语输出任务的系统所需要的时间和数据。” IARPA的通告称,MATERIAL项目的参与者将有权利用一套有限的机器翻译,以及来自多语言的自动语音识别训练数据,从而使“参与者能学会如何让他们的方法更快速地适应不同风格和范围的多种材料。“ 随着项目不断推进,参与者将在不断缩短的时间内,快速将其应用到新语言,并让新语言适应新方法,因为这种方法不仅快速,而且与语言无关,所以,项目中不再需要外语语言专家。” 而且,IARPA希望参与MATERIAL竞争的团队能公开发表他们的研究成果,如果成功,这个翻译领域的“登月计划”可能显著改善其他人如何获得多种语言的材料,对语言学和技术世界来说,也不啻为一个福音。 编辑:朱颜 欢迎关注DT君的科幻电影公众号: (责任编辑:本港台直播) |