今年年初,中科院自动化所同语音企业极限元联合挂牌成立“中科院自动化研究所—极限元(北京)智能科技有限公司智能交互联合实验室”(以下简称智能交互联合实验室),中科院自动化研究所模式识别国家重点实验室副研究员温正棋出任智能交互联合实验室主任,并指导该实验室在语音合成、语音识别、关键检索等技术上进行技术研究。 如今,智能交互联合实验室已经取得牌照,而对于智能语音的理解和应用,温正棋有自己的看法,他表示,“智能语音作为一个高门槛的学科,并不是很容易进入,在语音中还是有很多细节需要去关注的。比如最简单的语音识别解码程序,每个团队都有自己的解码特色,在实时率、准确率等都具有自己独到的算法结构,更像一门艺术,每个团队都具有自己的艺术特色。” 产学结合推动语音合成的发展? 资料显示,温正棋在HMM语音合成(HTS)、语音信号处理和自然语言处理中常用的机器学习算法(最大熵算法、支持向量机等)、耳语音重构技术研究方面有着多年深入研究经验。 “我目前主要关注于语音识别、语音合成、说话人识别、关键词检索等跟语音相关的技术,当然也会涉及一些自然语言处理方面的内容,因为语音从大的方面讲也是NLP的一部分。”温正淇向创业邦(微信搜索关注:ichuangyebang)介绍到。 在温正淇眼中,atv,推动语音合成发展的最好方式应该是产学结合,也是目前语音企业普遍采用的方式。例如科大讯飞同中科大、思必驰与上海交大、捷通华声同清华大学等的合作。 另外,温正棋还透露,国内研发语音的其他高校或科研机构也普遍采用该模式,例如中科院自动化所、中科院声学所等。所以,中科院自动化研究所与极限元联合成立智能交互联合实验室显得水到渠成。 最适用的技术才是最有价值的 技术上的问题是永无止境的,每个阶段都有不同的侧重点,有时候训练用的数据量太少是难点,有时候要处理的数据量太大又成问题,所以很难说清哪一个是最大的难点。 但就从整个行业来说,最大的难点是如何找到具体的人工智能技术在人们生产生活当中发挥积极价值的契入点,无论是智能语音还是图像识别等等其他人工智能技术,找准一个技术落地方向很难,这里面有技术匹配度的问题,也有产品易用性的问题,还有人力、时间、资金等成本方面的问题需要考虑。 因此,有针对的的提供全面的技术解决方案显得尤为重要,此前创业邦(微信搜索关注:ichuangyebang)有过一篇关于极限元的文章报道《直播平台涉黄、涉暴从此烟消云散?极限元这技术逆天!》,文内详细阐述了这家公司技术解决方案的优势。 一个简单的例子,比如电话录音内容审核这样的项目需求,传统的做法是先进行语音识别得到电话录音内容的文本数据后,再进行文本数据的检索分析。但是这种方法对语音识别的准确率要求很高,更精确的分析结果,就需要更多的数据和计算资源用于语音识别的模型训练。这种实现方法无论对技术供应商或者项目需求方都产生不小的成本负担。 极限元的做法是根据用户的需求,提供识别率较低的语音关键词检索方案。实现同等精确度的分析结果,后者投入的成本更低,执行效率反而更高,一举多得。据了解,这项技术已经成功应用于多个省级反电话诈骗系统中。
所以,AI技术落地并没有最适用的行业,只能说应用这些AI技术的场景都存在一定共性,就是这项工作有规律、有边界、有据可循、有机械重复的劳动存在,AI技术应用的价值就是降低成本、提高效率。安防技侦领域的疑犯追踪,在线直播行业的智能鉴黄,呼叫中心领域的录音质检,金融保险行业的大数据分析风险评估等等也是一样的道理。 人工智能的技术壁垒会越来越低 随着从业人员的不断涌现,人工智能的技术壁垒会越来越低,也会越来越深入的渗透到人们生活的各个角落,AI技术会出现更多的分支,针对不同的行业领域会有更多的专项技术研究方向,这个趋势是毋容置疑的。 从这个发展历程而言,极限元也经历从盲目的追究技术优越感,到客观的分析市场需求,到现在主动深入挖掘出用户。未来,在广度上极限元方面表示,会尽可能关注更多的行业客户。但在深度上,AI技术优势会跟行业用户结合的更紧密一些,充分挖掘出行业数据的潜在价值,并把它最大化。 (责任编辑:本港台直播) |