本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】腾讯AI实验室副主任俞栋:语音识别领域的四项前沿研究

时间:2017-05-28 00:07来源:668论坛 作者:开奖直播现场 点击:
5月27日,全球机器智能峰会(GMIS 2017)在北京开幕。在大会第一天,“LSTM 之父”Jrgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE

5月27日,全球机器智能峰会(GMIS 2017)在北京开幕。在大会第一天,“LSTM 之父”Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与了峰会。

腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋,在大会上发表了主题为《语音识别领域沿研究(Frontier Research of Speech Recognition)》的演讲,探讨分享了语音识别领域的 4 个沿问题。

俞栋1998年加入微软公司,任微软研究院首席研究员,atv,是语音识别和深度学习方向的资深专家。迄今为止,他出版了两本专著,发表了160多篇论文,论文他引超过10000次。同时,他也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。

以下是俞栋演讲的主要内容,黑智(VR-2014)编辑整理:

wzatv:【j2开奖】腾讯AI实验室副主任俞栋:语音识别领域的四项前沿研究

语音识别是一个有着悠久历史的研究领域。在过去的几十年里,研究人员从最简单的小词汇量阅读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今,即便是在以前认为非常难的自由对话这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但是离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿又推进了一步。

如今研究的问题越来越没有环境、说话风格、口音、词汇等限定(不像以前有非常多的限制),同时这也增加了语音识别的难度,研究的前沿也从近场麦克风转向远场麦克风,两者的区别在于,在远场情况下,当人的声音传达到麦克风时,声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难,在远场麦克风就变得很明显。如果不解决这些问题,用户在很多的应用场合仍然会觉得语音识别效果欠佳。

所以今天在这样的背景下,我介绍一下最近在语音识别当中的一些前沿的研究方向。

研究方向一:更有效的序列到序列直接转换的模型

语音识别实际上是把语音信号的序列转化为文字或词的序列,所以很多人认为要解决这个问题,找到一个行之有效、序列到序列的转换模型就可以了。

wzatv:【j2开奖】腾讯AI实验室副主任俞栋:语音识别领域的四项前沿研究

从前的绝大部分研究是通过对问题做假设,然后据此在语音信号序列到词信号之间生成若干个组件,并逐步地转换以生成词的序列。在这些假设中间有许多假设,在某些特定场合它是合理的,但是在很多真实的场景下,它又是有问题的。这种模型实质上是说,如果我们去掉可能存在问题的假设,然后借助数据驱动,就有可能找到更好的方法,使序列转换更准确。

这样做另外一个好处是整个的训练也可以变短。

更有效的序列到序列直接转换的模型目前来讲主要有两个方向。

方向一:CTC模型。CTC模型十分适合语音识别这样的问题,因为它所要求得输出序列长度比输入序列长度要短很多。CTC模型还有一个优势,传统的深度神经网络与混合模型一般来说建模量非常小,但是在CTC模型里面你可以相对自由地选择建模单元,而且在某些场景下建模单元越长、越大,你的识别效果反而会越好。

最近谷歌有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统模型。但由于训练稳定性差,atv,CTC模型相对于传统模型仍然更难训练。

更有效的序列到序列直接转换的模型的第二个方向是:Attention 模型。

Attention 模型首先把输入序列、语音信号序列,转换成一个中间层的序列表达,在这个中间层序列表达上面,能够提供足够的信息,然后就可以基于这个信息有一个专门的、基于递归神经网络的生成模型,这个方法在机器翻译里面现在成为了主流方案,但是在语音识别里面它还是一个非常不成熟的技术,它有几个问题在里面。

问题1:只适合短语的识别,对长的句子效果比较差。

问题2:在做语音识别的时候,它的效果是相对来说非常不稳定的。

那么如何解决这些问题?目前最佳的解决方案就是把 CTC 与 Attention 结合起来,这主要是因为CTC有持续信息,可根据后面的语音信号生成词,这有助于 Attention生成更好的表达。两者结合的最终结果既比CTC、Attention各自训练效果更好,所以是一个 1+1 大于 2 的结果。

但是,即便把 CTC 与 Attention 两种模型结合起来,其效果比传统混合模型相比,依然没有太多长进。所以我们仍然需要解决一些问题。

问题一:在这样的架构下面,有没有更好的一些模型结构,或者是训练准则,能够比现有的CTC或者Attention模型更好。

问题二:当拥有的数据较少时,有没有办法建造一个结构,使得语言模型和声学模型紧密结合在一起。

问题三:如何利用各种语料的数据,整合起来训练一个更好的序列到序列转换模型。

研究方向二:鸡尾酒会问题

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容