本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】机器之心独家专访:首度揭秘地平线语音战略与研究(4)

时间:2017-01-16 22:16来源:天下彩论坛 作者:j2开奖直播 点击:
黄畅 :现在看来语音识别问题好像已经基本解决了,但这仅限于近距离安静场景中和发音相对比较规范情况下。就好比人脸识别,很多人觉得好像是个已

黄畅:现在看来语音识别问题好像已经基本解决了,但这仅限于近距离安静场景中和发音相对比较规范情况下。就好比人脸识别,很多人觉得好像是个已解决问题,但仍只是在限定条件下。但当你实际应用的时候,会出现各种问题。典型的问题就是:第一个,远场情况下,混响、噪声干扰怎么解决?第二个,语义是否能够正确理解?

我们以前讨论过,如果只是做一个通用语音识别,可以把字打出来。本质上来讲,它只能够替代输入法,作用是十分有限的。如果要把它用在交互上,形成一个闭环的话,它必须能够理解人的语义。所以只在中间这段语音识别做好还不够,真正应用中要形成一个闭环,前面的语音信号处理、后面语义理解都要做得好。

所以我们不应该单纯的、狭义的说语音识别问题已经解决了。广义的语音识别应该是从声音信号开始,到最终的语义。

机器之心:那我们在语义理解方面做了哪些工作?

牛建伟:我们现在主要还是针对于对话或者是交互系统来做,包括我们在用强化学习做对话的一些生成,还有对话状态的管理。同时我们也做一些 NLP 方面的工作,用 Deep CNN 或者 LSTM 做一些名词的标注,或者是实体的识别,另外还有些语言模型方面的工作。

黄畅:泛泛的那种对话、聊天式的机器人意义不大,我们关注的对话是针对某个特定的场景、应用或者类型的知识,使它成为有独特性的,有「知识背景」的对话。

机器之心:地平线在语音研究上的数据能做一下介绍吗?

黄畅:关于数据,其实有些新的趋势不仅是在语音上,而在各种各样的技术性问题中,比如如何做迁移学习(transfer learning)?在一个有大规模数据的场景中训练出模型,在另外一个相似、相仿的场景中,怎么把这个大规模数据场景中训练出的模型迁移到小规模数据场景中。

另一方面是生成型模型,尤其是对抗式生成式模型,它提出了一种非常新的概念,就是重新设定学习的范式(paradigm)和框架,重新看待学习这件事情。它一个很重要的产出就是,利用生成式模型帮助你产生更多的、特定属性的数据。

再往前推,其实 RL(强化学习)是非常有价值,尤其是在交互的过程中。对语义理解互动这件事情,RL 天生就是为这种交互的模式设计的。

机器之心:在语音识别算法方面,还可以朝着哪些方面改进?

牛建伟:主要有三方面的改进。

第一,降低数据量的需求。即我们通过一些方式生成数据,或者学习一些数据共有的特征或属性,以此降低数据量需求。比如说为了达到一个比较高的识别率,现在可能需要 2 万小时的数据量,以后只需要 2000 小时。举个例子,DNN 取代以前的 GMM 模型的时候,DNN1000 小时的性能其实已经超过了在 3000 小时训练数据上训练的 GMM 的性能。

第二,更好的语音信号的特征表示。因为现在语音识别最大的一个问题是有比较大的干扰之后,识别效果就不太好。其实人在 0dB 或者更低信噪比的情况下(噪音跟声音的能量是一致的时候),还能够识别,但机器就没办法处理的很好。说明我们现有的特征表示的鲁棒性还不够好,距离人还有很大差距。

针对于此,我们可以对人耳听觉进行更精确的数字描述。或设计现在已有的神经网络结构,更好地提取出语音信号里面对识别来说作用更大的特征。

第三,解码。我们现在一直在提端到端,但其实一直没有把解码包含进来。语音识别最终做的还是把固定特征表示成一个更高维的信息,还是时间序列上的表示,需要解码的过程。

解码是除了模型外计算量比较大的一块。但其实解码也能通过模型表示出来。也就是通过模型的方式把高维的时序信息结合起来,最终直接就预测出一句话,那这样就相当于在时序上的端到端的识别。

如果能做到这样,后面优化识别模型的过程就变得更容易了。因为虽然解码还是工程化的东西,但它会比较明显的影响到识别结果。如果我能把它放到机器学习的框架里面去优化,这样相当于整体的优化。有可能性能会更好,解码的效率也会更高。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容