不论你能把翻译做得多好,我现在给了你另外一些新的数据,比如说是个新的领域,我请你来帮我改变一下,那你怎么做。即使是用端到端的做法,那也是要结合一定的知识架构,去做迁移性的端到端。所以我不认为简单的端到端,是一个目标。重要的事情,核心的点还是在于与应用的结合。在具体到真正的应用领域当中,它会有自身的一些特性,而那些特性反过来又会促进新类型的机器学习方法的产生。即使叫端到端,也是有语音语言背景的,这样一些特殊的端到端,它要做到可解释,它要做到可调整。这样的东西才是真正有发展潜力的。 机器之心:那怎样利用好常识、已有知识来解决现在的实际问题?类似「最强大脑」语音识别比赛中的监督学习。 俞凯:在过去的四五年,我大概探索这么几类。一类就是把先验知识以某种方式变成向量化的表达,然后输到你的网络里,这一类思路主要研究先验知识怎么表达。Word2vec 这是最典型的一个。但如果我问你,假如你想要表达一下你的语义,你怎么表达呢?这一类思路是研究一些复杂现象的表达,然后把它输到传统模型,放到它的输入或是输出。 第二类,就是从模型结构层面,把一些先验知识放进去。在我们做语言模型训练的时候,我是给定了前面的文字,然后去预测下一个文字。这是基本的一个概念,我们给定的文字是什么呢?比如前面给定了 5 个词,你去预测第 6 个词,但在这个时候你就会发现,中文还有一个单元是字,字和词之间其实是有组合关系的,有一些时候单字是没有意义,组合成词才有意义。但更多的时候是单字本身,它对于词的意义甚至对词的预测是有帮助的,那么你如何把单字和词放在一起呢。 我们当时做一个工作,在一个基于词的神经网络回归模型里,我们加了一个词分解成字的结构。在预测输出的时候又把字再自动合成词,相当于内嵌了对字结构的描述,这种情况使得在一些低频词上面的预测概率变得非常的好,这就是在模型结构上去做预测。 第三类,就是传统的机器学习问题。我们当时做了另外一类思路,就是说可不可以把一些先验的知识,通过约束条件的办法放进去,我既不改模型,我也不改输入输出,但是我加一些比较特殊的约束条件。在我们做这个对话状态跟踪的时候,就曾经做过这样的一些例子,取得了比较好的效果。 机器之心:在交互的场景下,该如何针对人们不同的这种知识背景进行学习并反馈正确的内容? 俞凯:现在基本上是采用迁移学习的一些思路来做。比如所谓在多任务的情况下,做语义任务的分解。然后共享中间比较共同的网络结构,在比较特殊的结构上,再去进行一些小规模参数的协调,大概是这样一些方法。 我觉得在交互的时候,不同人的说话的方式不太一样。有一个前提是,要想做这件事,总需要有这个人的少量数据才能做。我认为在方法上,还有很多其他类语音的自适应方法也可以放到自然语言处理中是没有问题的。但瓶颈不在这,瓶颈在于根本拿不到这种交互数据,这是目前产业界和研究界都比较困惑的事。 机器之心:目前科技巨头都在致力于发展语音交互的机器人如 Alexa、 Siri、 Cortana 等,未来是否可能会有公司或是会议牵头制定语音行业的标准? 俞凯:我相信人工智能的标准一定会在很多地方都会被制定,这个我相信。但具体是说,行业联盟的形式还是什么这个我们还需要看。包括思必驰自己,因为我们在做的东西,是端到端的交互,而且我刚才也提到,从我来推动的一个方向,把它推到所以然方面,会比较有架构的方式,系统性的方式来观察它。所以我们自己也在做一些这种标准化的工作,这对未来和这个行业的一些同行,我们一块来做这个标准我相信都是有帮助的。 机器之心:在语音训练数据的选择上,思必驰会进行数据的筛选和预处理么?是如何进行预处理的? 俞凯:一定会做的。现在就是这种预处理,绝大部分肯定都是自动来做的。这种就涉及到一个具体的技术,就是基于这种置信度这样的技术。我们会采用一些快速的,半人工的手段来做的。 机器之心:当前基于深度学习的语音算法和传统基于统计模型的方法有很大的区别,特别是在特征设计和提取上呈现明显的简化趋势,而这样的趋势会误导一部分学生和从业人员,使其轻视传统的语音基础研究。请您谈一谈对这个问题的看法。 (责任编辑:本港台直播) |