5月27日,全球机器智能峰会(GMIS 2017)在北京开幕。在大会第一天,“LSTM 之父”Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与了峰会。 腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋,在大会上发表了主题为《语音识别领域的前沿研究(Frontier Research of Speech Recognition)》的演讲,探讨分享了语音识别领域的 4 个前沿问题。 俞栋1998年加入微软公司,任微软研究院首席研究员,atv,是语音识别和深度学习方向的资深专家。迄今为止,他出版了两本专著,发表了160多篇论文,论文他引超过10000次。同时,他也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。 以下是俞栋演讲的主要内容,黑智(VR-2014)编辑整理: 语音识别是一个有着悠久历史的研究领域。在过去的几十年里,研究人员从最简单的小词汇量阅读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今,即便是在以前认为非常难的自由对话这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但是离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿又推进了一步。 如今研究的问题越来越没有环境、说话风格、口音、词汇等限定(不像以前有非常多的限制),同时这也增加了语音识别的难度,研究的前沿也从近场麦克风转向远场麦克风,两者的区别在于,在远场情况下,当人的声音传达到麦克风时,声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难,在远场麦克风就变得很明显。如果不解决这些问题,用户在很多的应用场合仍然会觉得语音识别效果欠佳。 所以今天在这样的背景下,我介绍一下最近在语音识别当中的一些前沿的研究方向。 研究方向一:更有效的序列到序列直接转换的模型 语音识别实际上是把语音信号的序列转化为文字或词的序列,所以很多人认为要解决这个问题,找到一个行之有效、序列到序列的转换模型就可以了。 从前的绝大部分研究是通过对问题做假设,然后据此在语音信号序列到词信号之间生成若干个组件,并逐步地转换以生成词的序列。在这些假设中间有许多假设,在某些特定场合它是合理的,但是在很多真实的场景下,它又是有问题的。这种模型实质上是说,如果我们去掉可能存在问题的假设,然后借助数据驱动,就有可能找到更好的方法,使序列转换更准确。 这样做另外一个好处是整个的训练也可以变短。 更有效的序列到序列直接转换的模型目前来讲主要有两个方向。 方向一:CTC模型。CTC模型十分适合语音识别这样的问题,因为它所要求得输出序列长度比输入序列长度要短很多。CTC模型还有一个优势,传统的深度神经网络与混合模型一般来说建模量非常小,但是在CTC模型里面你可以相对自由地选择建模单元,而且在某些场景下建模单元越长、越大,你的识别效果反而会越好。 最近谷歌有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统模型。但由于训练稳定性差,atv,CTC模型相对于传统模型仍然更难训练。 更有效的序列到序列直接转换的模型的第二个方向是:Attention 模型。 Attention 模型首先把输入序列、语音信号序列,转换成一个中间层的序列表达,在这个中间层序列表达上面,能够提供足够的信息,然后就可以基于这个信息有一个专门的、基于递归神经网络的生成模型,这个方法在机器翻译里面现在成为了主流方案,但是在语音识别里面它还是一个非常不成熟的技术,它有几个问题在里面。 问题1:只适合短语的识别,对长的句子效果比较差。 问题2:在做语音识别的时候,它的效果是相对来说非常不稳定的。 那么如何解决这些问题?目前最佳的解决方案就是把 CTC 与 Attention 结合起来,这主要是因为CTC有持续信息,可根据后面的语音信号生成词,这有助于 Attention生成更好的表达。两者结合的最终结果既比CTC、Attention各自训练效果更好,所以是一个 1+1 大于 2 的结果。 但是,即便把 CTC 与 Attention 两种模型结合起来,其效果比传统混合模型相比,依然没有太多长进。所以我们仍然需要解决一些问题。 问题一:在这样的架构下面,有没有更好的一些模型结构,或者是训练准则,能够比现有的CTC或者Attention模型更好。 问题二:当拥有的数据较少时,有没有办法建造一个结构,使得语言模型和声学模型紧密结合在一起。 问题三:如何利用各种语料的数据,整合起来训练一个更好的序列到序列转换模型。 研究方向二:鸡尾酒会问题 (责任编辑:本港台直播) |