2016 年 5 月 19 日,搜狗正式上线英文搜索。搜狗英文搜索可提供跨语言检索功能,可自动将中文翻译成英文进行查询,atv,再生成英文查询结果。对于不擅长英文的用户,可以节省很多「先翻后搜」的搜索时间;在 11 月的乌镇世界互联网大会上,搜狗展示了机器同传技术,可将演讲者的中文同步翻译成英文并实时上屏;12 月 21 日,搜狗英文搜索正式升级为搜狗海外搜索频道(overseas.sogou.com),并同步上线了搜狗翻译频道 (fanyi.sogou.com)。
近三年来,「神经网络机器翻译技术」成为人工智能翻译主流。该技术通过「端到端」的方法将翻译平行语料进行映射,以「编码器—注意力机制—解码器」的结构,解决翻译问题。 自 2016 年 8 月搜狗 NMT 团队成立至今,其自主研发的「机器翻译·一期系统」基本搭建完成。近日,人工智能媒体《机器之心》对搜狗 NMT 团队进行了专访。搜狗搜索技术负责人许静芳、搜狗搜索机器翻译负责人翟飞飞、清华计算机系副教授刘洋,就「搜狗神经机器翻译」的优势、团队组建和技术拓展等问题,展开了深度的分享。 采访如下: 搜狗翻译可生成更流畅的翻译结果 机器之心:神经机器翻译(NMT)将整个输入句子视作翻译的基本单元,相比于之前的基于短语的翻译系统,除了所需的工程设计更少这个优点外,句子意思理解的精确度有哪些提升? 刘 洋: NMT 有两个关键的技术很重要,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,比如中英文结构差异特别大,词语顺序存在全局变化,NMT 处理这种情况特别有优势,生成的译文要比传统的方式生成的译文流利很多,这是 NMT 很突出的特点。 翟飞飞:在统计机器翻译中,我们使用调序模型来处理不同语言之间词序不同的问题。但在处理长距离调序时,由于搜索空间太大,调序模型很难做到有效建模,直播,导致许多统计机器翻译系统生成的译文存在较多词序错误,难以看懂。但 NMT 的模型架构对处理长距离调序问题特别有效,生成的译文更为流利。 搜狗翻译有望实现「多场景即时对话翻译」 机器之心:在更高层次上自然语音处理上,实现两种语言的实时对话还需要多久?
搜狗搜索技术负责人许静芳 许静芳:我觉得这个会很快,当然有一个前提,就是提出什么样的要求,如果要求特别流畅,包括上下文的理解,那不一定能做到。但由于语言的障碍,至少可以从以前的不能交流变成现在能够辅助理解和交流,这个会非常快。在某些场景口语交互或者日常的生活场景上,达到非常流利地交流,我觉得这也是在一两年的时间内可以做得非常好的一件事情。 当然这里面也会涉及到更多的口语上的交互,又会和语音挂上钩,涉及到多种语音识别,包括和口音、设备关联在一起,会很复杂。但单纯在翻译这个层面,这个会非常快,现在已经做到有帮助。
清华计算机系副教授刘洋 刘 洋:我个人觉得在「多场景即时对话翻译」领域至少有两个挑战。从方法层来说,最难的就是语言歧义性问题,这是自然语言处理所最大的挑战。人类语言和机器语言不一样,机器语言要求精准、没有歧义,比如 C+,JAVA。但是自然语言的歧义性很高,比如英文词「bank」,既可能是指「银行」,也可能是指「堤岸」。口语交互过程中歧义现象很严重。 从数据层面来说,无论是语音识别、机器翻译还是语言合成,都是数据驱动的方法,系统性能严重依赖于标注数据的规模、质量和覆盖率。对于开放领域的即时对话翻译而言,目前还缺乏大规模、高质量、广覆盖的标注语料库。 搜狗翻译水平已部分超越 Google 等巨头 机器之心:通过深度学习来搭建的实时翻译技术与数据密不可分,搜狗的 NMT 在大型数据集上工作有哪些挑战? (责任编辑:本港台直播) |