本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】机器之心年度盘点 | 从技术角度,回顾2016年语音识别的发展

时间:2016-12-26 21:33来源:本港台直播 作者:j2开奖直播 点击:
得益于深度学习与人工神经网络的发展,语音识别在2016年取得了一系列突破性的进展,在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环,语音识别一直是科技巨头研

得益于深度学习与人工神经网络的发展,语音识别在2016年取得了一系列突破性的进展,在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环,语音识别一直是科技巨头研究的重点,国内外也涌现出了一批优秀的创业公司。

  

wzatv:【j2开奖】机器之心年度盘点 | 从技术角度,回顾2016年语音识别的发展

今年年初,机器之心发布来自 ACM 中文版的文章《》,文中微软首席语音科学家黄学东为我们深入解读了语音识别的历史以及发展难题。

长久以来,j2直播,人与机器交谈一直是人机交互领域内的一个梦想。语音识别做为很基础的技术在这一年中再次有了更大的发展。

一年中,机器之心拜访过科大讯飞,接触过云知声、思必驰等创业公司,在微软的英语语音识别取得突破后更是深度专访了微软的黄学东、俞栋,不久之前的百度语音开发平台三周年的主题活动上我们也向百度首席科学家吴恩达了解过百度的语音识别发展。我们希望从机器之心文章中梳理出的线索,能为接下来语音识别的发展提供一丝洞见。

在这篇文章中,我们会依次梳理 2016 年机器之心关注到的语音识别领域的突破性研究、未来待解决的难题、语音识别发展历史中较为重要的时间点。

一、2016 年语音识别有哪些突破?

这一部分盘点了 2016 年机器之心所关注到的在语音识别准确率上取得的突破,主要涉及的公司包括百度、IBM 和微软等。根据这些突破,我们梳理出了一条语音识别技术发展的线路。

1.

发生时间:2016 年 2 月

Deep Speech 2 于 2015 年 12 月首次发布时,首席科学家吴恩达表示其识别的精度已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。到今年 2 月份时,Deep Speech 2 的短语识别的词错率已经降到了 3.7%

不久之前,百度又将 Deep CNN 应用于语音识别研究,使用了 VGGNet,以及包含 Residual 连接的深层 CNN 等结构,并将 LSTM 和 CTC 的端对端语音识别技术相结合,使得识别错误率相对下降了 10%(原错误率的 90%)以上。

据百度语音技术部识别技术负责人、Deep Speech 中文研发负责人李先刚博士介绍说,百度正在努力推进 Deep Speech 3,这项研究不排除将会是 Deep Speech 3 的核心组成部分。

技术提升基础:1. 端到端深度学习方法;2. 深层卷积神经网络技术(Deep CNN)应用于语音识别声学建模中,与基于长短时记忆单元(LSTM)和连接时序分类(CTC)的端对端语音识别技术相结合。

发生时间:2016 年 5 月

2015 年,IBM Watson 公布了英语会话语音识别领域的一个重大里程碑:系统在非常流行的评测基准 Switchboard 数据库中取得了 8% 的词错率(WER)。到了今年 5 月份,IBM Watson 团队再次宣布在同样的任务中他们的系统创造了 6.9% 的词错率新纪录。

技术提升基础:声学和语言建模两方面技术的提高

3.

发生时间:2016 年 9 月

在产业标准 Switchboard 语音识别任务上,微软研究者取得了产业中最低的 6.3% 的词错率(WER)。

技术提升基础:基于神经网络的声学和语言模型的发展,数个声学模型的结合,把 ResNet 用到语音识别。

4.

发生时间:2016 年 10 月

微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER),达到了 5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平,而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。这个里程碑意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。

技术提升基础:系统性地使用了卷积和 LSTM 神经网络,并结合了一个全新的空间平滑方法(spatial smoothing method)和 lattice-free MMI 声学训练。

虽然在准确率的突破上都给出了数字基准,但百度与微软、IBM(switchboard 上测试)有较大的不同。微软的研究更加学术,是在标准数据库——口语数据库 switchboard 上面完成的,这个数据库只有 2000 小时。

微软研究院的研究关注点是基于 switchboard 数据库,语音识别最终能做到什么样的性能。而据百度语音识别技术负责人李先刚介绍,他们的关注点是语音技术能够深入到大家的日常应用中,他们用的数据长达数万小时。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容