本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【组图】深度 | 在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)(2)

时间:2016-10-25 00:12来源:香港现场开奖 作者:开奖直播现场 点击:
用于英语和普通话的 Deep Speech 2 系统架构,它们之间唯一的不同是:普通话版本的输出层更大(有 6000 多个汉语字符),而英语版本的只有 29 个字符。 该

用于英语和普通话的 Deep Speech 2 系统架构,它们之间唯一的不同是:普通话版本的输出层更大(有 6000 多个汉语字符),而英语版本的只有 29 个字符。

  该系统能够识别「混合语音(hybrid speech)」——很多普通话说话人会组合性地使用英语和普通话。

  在 Deep Speech 2 于 2015 年 12 月首次发布时,首席科学家吴恩达表示其识别的精度已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。

据百度表示,到今年 2 月份时,Deep Speech 2 的短语识别的词错率已经降到了 3.7%(参考阅读:)!Coates 说 Deep Speech 2 转录某些语音的能力「基本上是超人级的」,能够比普通话母语者更精确地转录较短的查询。

百度在其技术发展上大步迈进,Deep Speech 2 目前已经发展成了什么样还很难说。但一项技术终究要变成产品和服务才能实现价值。

科大讯飞的语音识别

百度的 Deep Speech 识别技术是很惊人,但就像前文所说一项技术终究要变成产品和服务才能实现价值,科大讯飞无疑在这方面是做得最好的公司之一。

科大讯飞在自然语言处理上的成就是有目共睹的,在语音识别上的能力从最初到现在也在不断迭代中。2015 年 9 月底,机器之心对,他就对科大讯飞语音识别技术的发展路线做过清晰的介绍:

科大讯飞很好地跟随了语音识别的发展历史,深度神经网络由 Geoffrey Hinton 与微软的邓力研究员最先开始做,科大讯飞迅速跟进,成为国内第一个在商用系统里使用深度神经网络的公司。谷歌是最早在全球范围内大规模使用深度神经网络的公司,谷歌的 Voice Search 也在最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到了谷歌的启发,在国内最早把涟漪效应用在了语音识别上面,因此超越了其他平台。

科大讯飞最初使用隐马尔可夫模型,后面开始在互联网上做,2009 年准备发布一个网页 demo,同年 9 月份安卓发布之后开始转型移动互联网,并于 2010 年 5 月发布了一个可以使用的手机上的 demo;2010 年 10 月份发布了语音输入法和语音云。

整个过程中最难的地方在于,当你不知道这件事情是否可行时,你能够证明它可行。美国那些公司就是在做这样的事情。而科大讯飞最先领悟到,并最先在国内做的。

到今年 10 月份刚好过去一年,科大讯飞的语音识别技术在此期间依然推陈出新,不断进步。去年 12 月 21 日,在北京国家会议中心召开的以「AI 复始,万物更新」为主题的年度发布会上,科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequential Memory Network)为代表的新一代语音识别系统。

  

【j2开奖】深度 | 在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)

论文摘要:

在此论文中,我们提出了一种新的神经网络架构,也就是前馈型序列记忆网络(FSMN),在不使用循环前馈的情况下建模时间序列中的 long-term dependency。此次提出的 FSMN 是一个标准的全连接前馈神经网络,在其隐层中配备了一些可学习的记忆块。该记忆块使用一个抽头延时线结构将长语境信息编进固定大小的表征作为短期记忆机制。我们在数个标准的基准任务上评估了 FSMN,包括语音识别和语言建模。实验结果表明,FSMN 在建模语音或语言这样的序列信号上,极大的超越了卷积循环神经网络,包括 LSTM。此外,由于内在无循环模型架构,FSMN 能更可靠、更快速地学习。

后来通过进一步的研究,在 FSMN 的基础之上,科大讯飞再次推出全新的语音识别框架,将语音识别问题重新定义为「看语谱图」的问题,并通过引入图像识别中主流的深度卷积神经网络(CNN, Convolutional Neural Network)实现了对语谱图的全新解析,同时打破了传统深度语音识别系统对 DNN 和 RNN 等网络结构的依赖,最终将识别准确度提高到了新的高度。

后来,科大讯飞又推出了全新的深度全序列卷积神经网络(Deep Fully Convolutional Neural Network, DFCNN)语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。

  

【j2开奖】深度 | 在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)

DFCNN 的结构图

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容