Christian Federmann 是 Microsoft 翻译团队的高级项目经理,他认为现如今是没有那么多测试双语对话语音翻译系统(如 Microsoft Translator live feature 和 Skype Translator)的标准数据集的。 所以他和他的同事们决定创建一个。 微软语音语言翻译语料库(Microsoft Speech Language Translation corpus)将在本周公开发布,任何人都能使用,它允许研究员根据这个标准数据集衡量自己对话翻译系统的质量和效力。该验证数据集包含法语、英语和德语之间的双语对话数据。 该语料库由微软使用双语者的会话制作,旨在创建一个标准,并让人们可以通过这个标准衡量他们会话语音翻译系统的水平。 Federmann 说道:「你需要高质量的数据才能创建一个高质量的测试集。」 直到这个数据集出现,人们忽然才发现将对话语音和双语翻译结合在一起的数据集一直是十分稀缺的。 Marine Carpuat 是马里兰大学计算机科学助理教授,她一直致力于研究自然语言处理,Marine 说当她想测试她的会话翻译算法的效果时,经常只能依赖于那些可免费获得的数据,j2直播,如欧盟文件的官方翻译。 她说这些官方翻译都不是为了测试会话翻译系统而建立的,它并不会反映人们在日常生活的交谈中的那种随意与自发性。当人们想翻译规整的对话时,将很难知道她所做的技术性手段到底是否起作用,因为对话常常包含一些停顿「嗯」和其他口语化的习惯。 Carpuat 是最早期获得语料库访问权限的人,她说语料库立马就对她有很大的帮助。 她说:「这是一种将系统放入标准数据很好的方法,并能看看如果尝试处理会话会发生些什么。」 Will Lewis,首席技术项目经理 微软认为语料库的免费开放将有利于会话翻译领域的进步,同时帮助人们创建更多的标准化基准,从而帮助研究人员衡量他们的研究工作。 微软翻译团队的首席技术项目经理 Will Lewis 说:「这将有助于推进该领域加速向前发展。」 相关研究: Identifying Unknown Unknowns in the Open World: Representations and Policies for Guided Exploration: https://www.microsoft.com/en-us/research/publication/identifying-unknown-unknowns-open-world-representations-policies-guided-exploration/ On Human Intellect and Machine Failures: Troubleshooting Integrative Machine Learning Systems: https://www.microsoft.com/en-us/research/publication/human-intellect-machine-failures-troubleshooting-integrative-machine-learning-systems/ Microsoft Speech Language Translation (MSLT) Corpus: https://www.microsoft.com/en-us/download/details.aspx?id=54689 原文链接:https://www.microsoft.com/en-us/research/blog/ai-getting-smarter-microsoft-researchers-ensure-ai-accuracy/ ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |