任何技术都有蓄能阶段和爆发阶段,语音识别技术的爆发是源于大数据,伴随互联网出现的涟漪效应和深度神经网络。涟漪效应,指互联网思维在提高核心技术表现中的作用。也有人称之为优化迭代,比如吴恩达将其称之为把研究层、产品和用户使用组合在一起,形成一个闭环的迭代优化,这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据,还能学习经验、认识以及怎么使用等,比如说调整哪些东西让用户体验得更好。 语音识别是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。比如说用户在说话时会截断,这样你就可以通过调整一些参数来提升表现。因为语音识别不仅是数据多了,识别率提高了,还有更多的因素,比如说用户的感觉、一些关键的参数点、经验等,这些都是可以学习到的。互联网思维所带来的就像软件迭代一样,通过反馈回来的信息进行调整,这是最核心的。 在大数据时代到来后,隐马尔可夫模型出现了局限,即数据量提升时,它带来的表现提升没有深度神经网络那么大,但其实都属于统计模式识别。在语音识别发展的过程中,深度学习是同时发生的一件事,如果没有深度神经网络,但是有大数据和涟漪效应,隐马尔可夫模型也可以做到实用。深度神经网络是让其做得最好,降低了门槛,让更多的人可以加入进来。在同样具有涟漪效应的情况下,深度神经网络比之前的算法好,数据越多,深度神经网络的效果更好。还有更加重要的一点,开奖,深度神经网络只是整个统计机器模式识别理论框架中的一个环节而已,真正重要的环节是统计决策系统。 深度神经网络由Geoffrey Hinton与微软的邓力研究员最先开始做,谷歌是最早在全球范围内大规模使用深度神经网络的公司,谷歌的Voice Search也在最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度神经网络的公司。 语音识别技术已经发展了几十年的时间,因为大数据和深度神经网络的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,但据 TechCrunch 统计,美国至少有 26 家公司在开发语音识别技术。 不过,尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给科大讯飞、百度、搜狗等在汉语领域实现突出表现提供了机会。在国内,这些本土化产品更为用户所熟知。 从识别到感知认知 在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。现如今,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。 尽管视觉和语音识别在近些年来都取得了巨大的进步,但这些研究者仍然提醒说,还有很多的工作要做。 展望未来,研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开,并且确保其能够在各种各样的声音上发挥效用,而不管说话人的年龄、口音或说话能力。 从更长远来看,研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号,而且还要理解他们所说的话。这样就能让这项技术可以根据自己被告知的内容回答问题或采取行动。 下一个前沿是从识别走向理解,我们正在从一个人类必须理解计算机的世界迈向一个计算机必须理解我们的世界。 但是,atv,我们也应该清醒的是,真正的人工智能仍然还在遥远的地平线上。在计算机能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,还有很长的路要走。 (责任编辑:本港台直播) |