本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】机器在聆听(2)

时间:2017-03-28 06:49来源:668论坛 作者:118开奖 点击:
不过,中文版的Via Voice4.0刚推出,我就试用了这个软件,但很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。当时,我并不知

不过,中文版的Via Voice4.0刚推出,我就试用了这个软件,但很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。当时,我并不知道,语音识别的大师们在此几年前已经纷纷离开了IBM。

剑桥大学的HTK语音开发平台也开始商业化,被微软收购。后来微软重新把HTK核心技术的使用权送还给剑桥大学。

语音识别专家、数据魔方智慧科技CEO张晴晴博士这样描述当时的情况:“深度学习之前,做语音识别门槛是很高的。语音识别涉及到信号处理、语音语言建模、发音字典、解、后处理等等,每个模块都足够一个博士研究好几年。”

在这样的研究环境下,掌握核心算法的公司很容易形成技术垄断。1992年创立的美国语音巨头Nuance,2005年在纳斯达克上市,一直深耕统计方法的语音技术,拥有大量的核心算法和数千件专利。苹果Siri采用了他们的语音技术后,Nuance公司在语音识别方面的技术实力也浮出水面。手机、家电、汽车等人机语音交互产品中,大量嵌入他们的语音识别系统,客户都是苹果、三星这样的知名厂商。

Nuance擅长利用自己在语音处理方面的知识产权打击竞争对手。用诉讼手段削弱具有创新力的对手,然后低价并购或让其破产。很长时间内,Nuance拥有绝对话语权,整个语音行业生态是——这棵大树下寸草不生。

  深度学习带来曙光

学术界寻求理论突破,产业界望打破垄断,这样的氛围中,影响语音识别的重要角色在2006年后出现。没错,就是深度学习,或者说深度神经网络。

2006 年的一天,西雅图微软研究院的研究员邓力看到欣顿的一篇关于深度学习的论文《关于深度置信网络的一种快速学习算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己绞尽脑汁没有突破的问题,欣顿轻而易举就解决了。 2009 年,邓力邀请欣顿到西雅图微软研究院一起讨论,从此微软语音识别研究转入了深度学习方向。

谷歌稍晚了一点,但追赶得很快。出门问问公司CTO雷欣回忆,当年他在谷歌语音识别组担任研究科学家时,2011年夏天,欣顿的博士生纳瓦迪普·杰特列( (Navdeep Jaitly)来语音识别组实习,建议用深度神经网络来替代高斯混合模型做声学模型。短短的实习时间里,纳瓦迪普在实验中获得了显著超出谷歌原系统的识别结果。之后,谷歌工程师们很快将实验工程化产品化,2012年初发布在谷歌Voice Search主产品中。这是业界首次将深度学习用于大词汇量语音识别产品中。2012年下半年,雷欣将深度神经网络发布至Android JellyBean版本中,这也是业界首次将深度学习用于嵌入式语音识别产品。

微软语音识别研究取得惊人突破。2016年10月18日,由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平而优于大多数人的表现。这被认为是AI领域历史性的突破。

百度首席科学家吴恩达立即发推特祝贺微软的语音识别突破,同时话中有话地介绍一年前百度在中文语音识别上就达到的成绩。百度的Deep Speech2的短语识别的词错率已降到3.7%,也达到或超过人类水平。

巨头们高度重视用深度学习解决语音识别问题,带来产业格局变化。美国出现了几十家应用深度学习的语音识别技术公司。同时,专利和算法作用越来越小,场景应用能力和客户数据资源在竞争中变得越来越重要。

在语音识别应用场景创新方面,亚马逊的Alexa语音交互平台很成功。用Echo交互式蓝牙音箱,语音通过内置接口,进入 Alexa平台进行语音交互。2014年Echo推出后,两年多时间内应用场景爆炸性增长,从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制,再到语音购物、语音支付、语音叫外卖、语音打车等多场景应用,亚马逊的Alexa人机语音交互玩得出神入化。以至于有人惊呼:“这就像是试图成为语音方面的谷歌或者语音方面的Windows操作系统,亚马逊是要拿走整个市场。”

  

报码:【j2开奖】机器在聆听

亚马逊Alexa语音交互平台

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容