我们成立云知声遇到一个问题,数据有限,我们定制采购的数据只有八个小时,数据量非常非常小,我们在2012年9月份发布了公有云平台,把中文语音识别准确率做到85%左右,在当年已经是业内NO.1,超过了上市公司。一旦有了问题,数据的积累是需要时间的,那时候我们没有平台,而且我们没有足够的钱去采购数据,只能从算法上挖掘潜力。2012年10月份搞 Deep Learning,2012年12月28号把 Deep Learning 系统上线,2013年1月投放到线上,2013年基于 Deep Learning 引擎开发了业内微信上第一个语音输入插件,APP上线一周日活获超过五万。 我们在行业里面云知声从成立之初就是深度学习公司,一直到现在云知声对技术方面的定位。包括我们从引擎1.0到2.0到3.0,年中发布了引擎3.0,用了最新的技术,语音识别准确率比2.0提升了20%,而且在中英文混读的情况下,我们的效率反而提升了40%。 今天在 AlphaGo 成功之后,我们开始总结人工智能之所以成功,是因为大数据。包括到今天为止,坦率来讲这波人工智能能够成功的很重要的原因就是大数据。2004年那时候我刚刚毕业,在摩托罗拉在做手机系统,我们每个语种能拿到的数据不到一百小时,今天2012年成立的时候我们创业公司就有八百个小时,今天我们可能有几万个小时的语音数据,人工智能真正能够取得突破很重要的原因是在大数据。美国对做 Deep Learning 的高校提出的发明申请基本已经拒绝了,算法这块大家已经看到了,算法确实是一个突破,但是算法突破的根本原因在于大数据。
我之前有过一段创业经历,那个闭环打不通,后来做云知声就在想,对一个系统公司来说什么最重要?2012年以前在工业界的创业经历,意识到数据的重要性,我们作为一家创业公司2012年当时开放了国内第一个Free的开放平台,算是当时开创了国内商业模式的先河。以前我在互联网公司呆过,我们都深刻地知道免费才是王道,我们要通过免费获取数据。 今天回过头来看,在这一波人工智能的PK里面,云知声在数据层面上我们基本上拥有和巨头同样的规模。现在每天大概有几亿次的调用量,在创业公司里面据我们所了解,几乎没有任何一家语音类的创业公司有这个数量级,比我们差了两个数量级不止。我2012年意识到数据的重要性,我们持之以恒包括到今天依然有几十人的团队做这项事情,甚至开发了友盟这样的系统(是指友盟平台中用户反馈的语音模块),分析从哪个地区过来,从哪些设备过来,有效帮助我们做商业判断,最高频的语音请求是和设备结合而不是和APP结合。 曾经我们以为芯片行业是一个夕阳产业,但是今年芯片市场特别火热,芯片代表运算能力,甚至能决定人工智能到底做到什么规模,到底能够走多远。2012年我们已经开始用GPU攒Server,几年下来我们在这方面做得不错。2012年开始搭建超算中心,现在拥有了八千个CPU和超过160块GPU,我们跟曙光5000包括天河2号做了一个对比,今年9月份我们发布了Kubernetes的发行版Sextant,让开发者几乎实现零操作的全自动安装和部署集群。你做大数据的时候遇到很多瓶颈,给你几万个小时的数据跑,我的数据拥堵怎么办?遇到很多具体的问题。这个系统使得我们今天可以非常高效地来从事我们的研发工作,而且从数据规模和计算能力来说,云知声作为创业公司毫无疑问基本是跻身在国内一线公司的技术水平。
除了数据、算法包括计算能力之外,我们在感知认知方面做了长期的布局,大家看得到的是感知能力,atv,比如听觉方面。除了感知能力我们还有表达能力,通过语音合成的方式,另外认知计算方面,包括语言知识的思维等等。以前有人把我们公司的名字写成“云之声”,我们的计算能力更多是Push在云端,“云”对应人工智能三要素之一的技术,“知”是一种算法能力,“声”就是声音大数据。从感知到认知的技术图谱,除了识别技术之外还有很多技术,包括降噪,类似Echo或者 Google Home 必须有这样的技术,还要高性能、低能耗,高自然度的方式语音合成体现出来。 (责任编辑:本港台直播) |