机器之心:深度学习已经在语音识别得到了非常出色的表现,您觉得未来语音识别还能在深度学习的哪些方面实现突破? 俞栋:刚才我讲了,其中的一个可能性就是通过各种类型的 prediction 和 adaptation 使得深度学习模型表现更出色,这是有可能继续提升的地方。另外就是 end-to-end 建模。 还有,像我们最近也在做一些特殊环境中的语音识别,比如说在高噪音环境下、或者你说话的时候有背景的音乐、或者是会议室里面有多个人同时说话——这些情况下现在的语音识别效果是很差的。所以我们也在研究如何用深度学习的方法在比如多说话人的情况下做得比原来传统的方法好。我们现在已经在 arXiv 上面发布了一个早期结果的预印本(Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation),含有更多实验结果的正式版本现在正在审稿中。我们的这一称为 Permutation Invariant Training 的方法主要用于语音分离。用这种方法整个 process 比较简单而效果很好。在这些方面深度学习都能带来一定的突破。当然,我前面也讲了,完全解决这些问题需要软硬结合,从拾音到前端和后端需要系统性优化。 机器之心:在类似汉语这种多音字、多音词比较多的语言中,语音识别方面有什么和英语这样的拼音语言不一样的地方? 俞栋:从语音识别的技术角度来讲,没有太大的区别。因为你最终都是将语音信号,即 waveform sequence,变成字或者词的 sequence。多音字和多音词只是词表里对应的字或词有多个发音规则而已,这在其他语言比如英语中也很常见。 不过中文是一个有音调的语言,音调对字和词的识别是有影响的。音调信息如果用好的话,就有可能提升识别率。不过大家发现 deep learning 模型有很强的非线性映射功能,很多音调里的信息可以被模型自动学到,不需要特别处理。 唯一可能不一样的地方是如果你用 end-to-end system,建模单元会不一样。因为在英语里面你一般会选用字母、音素、或音节 作为建模单元,而不会选用词作为建模单元。但在中文里面你可以直接用汉字作为建模单元。所以建模单元的选择上可能会不太一样。除此之外,基本上没有太大区别。 机器之心:技术上没有太大区别? 俞栋:没有太大区别。 机器之心:具体来说,您觉得自然语言处理能够给语音识别带来哪些帮助? 俞栋:目前来讲,自然语言处理对语音识别本身的帮助还不是很大。要说帮助比较大的方面——如果语言模型(language model)算做自然语言处理的话,语言模型还是起到了很大作用的,尤其是在有噪音的环境下,如果没有语言模型来做约束,效果一般来说都比较差。但是除此之外,现在的 NLP 技术对语音识别没有起到很大的作用。大家尝试过很多用自然语言处理技术提升识别率的方法,但效果都不理想。 但是理论上来讲它应该是可以起到作用的。因为我们理解句子含义,我们能发现有一些语音识别结果是不 make sense 的,比如说前面的主语跟后面的宾语根本就不搭,在这种情况下识别系统应该选择其他的 hypothesis,对话系统则应该寻求澄清,但是现有系统没有这么做。没有这么做的原因在于它其实不理解到底用户说了什么,也没能充分利用远距离的 dependency 信息。这样的错误,有可能通过自然语言处理的技术发现并得到更正。但是语义分析是个很困难的问题,如何做还是一个未知数。 机器之心:刚才我们讲到在噪音环境下,包括远距离环境下的识别,除了这个,还有多个说话人一起说话的情况下的语音识别。在这三个方面,您觉得现在和未来可以通过什么样的方式来解决这个问题? 俞栋:前面提到过,解决远距离识别很重要的一点是需要硬件的支持。至少以目前的技术,仅仅通过后端处理效果还不够好。因为信号在传输的过程中衰减很厉害,距离越远衰减越厉害,信噪比就越差。所以远距离识别一般都需要做增强。比较好的增强需要硬件支持,比如说麦克风阵列。深度学习方法也能提供一些帮助。当你有多通道信息的时候,深度学习方法还可以做自动的信息融合以提升远距离语音识别的性能。 (责任编辑:本港台直播) |