本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】对话|俞栋:在人工智能的很多应用场景,语音识别是一个入口

时间:2016-11-02 05:44来源:报码现场 作者:www.wzatv.cc 点击:
俞栋博士1998 年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了 160 多篇论文,

报码:【j2开奖】对话|俞栋:在人工智能的很多应用场景,<a href=atv,语音识别是一个入口" src="http://www.wzatv.cc/atv/uploads/allimg/161102/054P252C_0.jpeg" />

俞栋博士1998 年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了 160 多篇论文,是 60 余项专利的发明人及微软认知工具包CNTK 的发起人和主要作者之。曾获 2013 年 IEEE 信号处理协会最佳论文。现任 IEEE 语音语言处理专业委员会委员,曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委

  记者:请俞老师先介绍下目前语音识别方面最值得关注的一些方向。

俞栋在安静环境下并使用近距麦克风的场合,语音识别的识别率已越过了实用的门槛(参见);但是在某些场景下效果还不是那么好,这就是我们这个领域的前沿。现在大家主攻几点:

首先,能不能进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右,所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理(例如麦克风阵列)和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外,大家还在研究更好的识别算法。这个“更好”有几个方面:一个方面是能不能更简单。现在的模型训练过程还是比较复杂的,需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话,很多团队都要用很长时间才能搭建一个还 OK 的系统,即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe,包括像微软CNTK 这样的深度学习工具包(现已更名为),事情已经容易多了,但还有继续简化的空间。这方面有很多的工作正在做,包括如何才能不需要 alignment ,或者不需要 dictionary。现在的研究主要还是基于端到端的方法,就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system,但是已经接近 hybrid system 的 performance 了。

另一方面,最近几年大家已经从一开始使用简单的 DNN 发展到后来相对复杂的 LSTM 和 Deep CNN 这样的模型,但在很多情况下这些模型表现得还不够好。所以,一个研究方向是寻找一些特殊的网络结构,能把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试,比如说人在跟另外一个人对话的过程中,他会一直做预计,这预计包括很多东西,不单是包括你下一句想要说什么话,还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法,就是快速的不需要人工干预的自适应方法(unsupervised adaptation)。现在虽然已经有一些自适应的算法,但是它们相对来说自适应的速度比较慢,或者需要较多的数据。有没有办法做到更快的自适应?就好像第一次跟一个口音很重的人说话的时候,你可能开始听不懂,但两三句话后你就可以听懂了。大家也在寻找像这种非常快且能保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

从识别来讲,我觉得目前主要是这些方向。

记者:Google DeepMind 最近提出了一种通过学习合成波形的方式生成语音的技术 WaveNet,据说可以生成感觉更自然的语音,微软在这方面有什么研究项目?

俞栋:微软也在做类似工作,但因为合成的研究团队和工程团队都在中国,atv,我对他们具体到哪个地步不是特别清楚。有一些信息我也不能直接披露,所以就不详细讲了。

报码:【j2开奖】对话|俞栋:在人工智能的很多应用场景,语音识别是一个入口

  记者:深度学习已经在语音识别得到了非常出色的表现,您觉得未来语音识别还能在深度学习的哪些方面实现突破?

俞栋:刚才我讲了,其中的一个可能性就是通过各种类型的预计和自适应使得深度学习模型表现更出色,这是有可能继续提升的地方。另外就是端到端建模。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容