想节棱,棱胎棱。 一头雾水?请看以下图片:
想起了吗? 没错,这就是曾经传遍网络的某轮胎广告,里面生动地体现了以粤语为母语人民的“煲冬瓜”(备注:“煲冬瓜”=“普通话”,广东和香港人用于自嘲普通话不标准的说法)。当然,古天乐现在的普通话已经进步很多了,但微软还是决定要将人类从“煲冬瓜”里解救出来。同时,这也是微软要打破世界语言隔阂的其中一个举动。
电影《家有喜事 1992》 前段时间,微软亚洲研究院在其官网上宣布微软翻译(Microsoft Translator)正式发布粤语文本翻译功能, 并已集成到必应搜索和翻译、Microsoft Office、SharePoint、Cortana(微软小娜)和 Yammer。 事不宜迟,ifanr(微信号 ifanr) 现在和大家一起测试一下。 Level 1 —— 词汇题:表情包 Level 1 的测试选择了微信表情包“广东青年粤语表情”,其中包括了“核突”、“靓爆镜”、“细路”等不少有看港剧的非粤语母语者都能看懂的词语。测试词汇合计 14 个,结果如下: (正确部分)
(无法翻译部分)
翻译测试正确率:50%。(翻不出来的,都会保持原来的写法。) 根据微软官网介绍,微软翻译基于平行语料库,且应用了机器学习技术和应用统计学,翻译“利用单词的整个语境,而非单个单词来为整句提供最佳的译文。” 因此,爱范儿(微信号 ifanr)将为原来翻译不正确的词语提供了语境,再试一次:
在本次测试中,微软翻译在语境中对“靓爆镜”、“无阴功“、“锡晒距”和“心淡”的理解都基本正确。可见语境对于提高理解还是有帮助的。
电影《英雄本色》 第一轮得分:85。 Level 2 —— 阅读题:香港娱乐新闻 其中一个粤语口语文本出现较频繁的情景是香港娱乐新闻,因此 2 级测试截取了难度中等的新闻报道测试,结果如下:
总体而言,atv,翻译文本意思基本通畅,只是在某些口语化特别强的词语翻译上有点奇怪。例如:“精灵 BB”,语境中意思应为形容人的精神状态很好,看起来聪明,反应快。 但这个错误真不可以怪微软,因为这个用法包含了两个知识点:1. “精灵”在粤语中为不同音多义词,其一可用于指神话中出现的生物“精灵”,和普通话一样;其二为形容人看起来或做事很机智;2. 粤语中喜爱用“BB”搭配在形容词和名词后用于表达亲昵,并无实义。 从另一个角度看来,微软翻译在这个测试中,不少粤语用词的处理都比较好,例如:“查实”=“其实”、“嗲幾句”=“闲聊几句”;而“咁”、“嘅”、“喺”、“噚晚”等高频用词的翻译表现更是稳定。 第二轮得分:80。 Level 3 —— 翻译题:地道地“说”粤语 既然微软翻译的成段粤语-普通话翻译表现不错,那普通话译粤语呢?
从测试结果看来,微软翻译“说”粤语的能力基本和反向翻译的水平相符,可以将一些高频词如“是”、“的”、“还”等转化为粤语口语用法。 但翻译同一词语在不同语段里翻译效果不一的现象。例如,在测试第二段中,原本第一段保留的“爱范儿”就成了“钟意范儿”、“无人机”也成了“冇人机”。这呼应了之前提及的依赖语境翻译的说法,但同时也体现其不准确性。因此,还是建议学习粤语的用户在参考时要谨慎。 第三轮得分:70。 终极 BOSS —— 奥赛题:口语+脏话搭配测试 (说明:下文涉及不雅语言,目的仅用于测试,不建议模仿)
电影《九品芝麻官》 人在学习新语言的时候,经常学得最快记得最牢的都是脏话,有文章表明这是出于社交需求。那暂无社交需求微软翻译又是否如此呢?
测试表明,平行语料库里有包含脏话素材,因此系统可以辨认得出脏话词组,但还是无法以合符说话习惯的方式来组织句子。 第四轮得分:60。 测试结论 微软四轮综合得分:75.75 分。 (责任编辑:本港台直播) |