胡郁:作为公司我们不太愿意发表跟核心技术相关的论文,我们并不是一个学校。但是可以从两个第三方的评价来介绍,第一关于最近用CNN来做语音识别,这一点微软亚洲研究院的研究员俞栋写了一篇文章,微软、谷歌和讯飞,把卷积神经网络识别率提高,成为以后的标准;另外就是,参加几次国际测试的过程中,每次有一个讨论会,我们跟大家交流,不一定发表论文,但是这个讨论会上要讲你的系统是怎么做的,是不是有什么投机取巧的地方或者是用了什么不允许用的技巧,这个过程中我们发布了很多这方面的介绍。 谷歌翻译中的“零数据”并非真正的零数据,未来20年人机交互由输入法引领 新智元:今年人工智能突飞猛进,最让你感到兴奋的人工智能的黑科技或者新技术是哪个? 胡郁:认知智能一直是大家非常期待突破的地方,从认知智能角度来讲,翻译已经取得非常快的发展,不管是谷歌基于神经网络的翻译系统还是讯飞这两年在一系列国际测试都取得非常好的结果,翻译离我们越来越近。基于神经网络的翻译,将翻译技术一下子推到非常接近实用的程度上。 新智元:谷歌刚刚发布了零数据迁移学习的翻译系统,这样一个基于神经网络的翻译技术,跟科大讯飞的翻译技术相比,可比性怎么样? 胡郁:首先要深入解释一下什么叫零数据的深度网络翻译。传统的机器翻译系统是有监督的训练系统。比如要翻译两种语言,就要知道这两种语言对应的文本对,同一句话,一个用中文讲,一个用英文讲,有一个并行的训练数据才能训练翻译系统。 所谓零数据是在没有训练平行语料或双语语料的情况下进行翻译,利用了不同语言之间相互概念上的影射关系来做这样的事情,是一种无监督的学习方法,它代表了翻译和人工智能领域一个非常重要的方向——用无监督学习的方法来训练人工智能系统。 讯飞也在做这样的事情,而且在类似的地方我们已经实现了这种技术,在翻译上大家想法都是比较接近的,但是因为谷歌有更加完善的国际化语言对系统,零数据翻译必须要体现在翻译多个语言对,而且它们之间要有相关性的时候才能发挥作用。 对于讯飞来讲,现在我们主要关心的还是中英之间或者中文和其它语种之间语音的翻译,这比纯文本的翻译要难很多,翻译过程中需要解决两个语种所有的合成识别一系列的问题。我们研究中文对其它语种所有语音的翻译,大家的研究重点不一样,因为每个人的资源有限,只能把有限的资源投入到你最想突破的地方。基于非监督的学习方法,我想我们肯定在应用,而且在自然语言理解方面取得很好的成果。 在2016年有突破性的进展,有一个跟讯飞年度发布会上发布的产品很有关系,就是声音的商品化平台。我们现在确实可以惟妙惟肖模拟一个人的音色、音律、表现力、习惯等等各方面,年度发布会大家看到罗永浩惟妙惟肖的表演,其实是语音合成的,但是很多人没想到。最后一个压轴的视频《疯狂动物城》里面那么多的角色,奥巴马不仅可以用英文,还可以用中文带着他自己的腔调来讲这段话,这都是今年在语音合成上面的突破。讯飞引领了这个突破,国际上都有这个趋势。 (责任编辑:本港台直播) |