我觉得MSRA这段经历对我影响挺大的。那时候它其实是有一些比较前沿的,尖端的一些技术的研发,你可以看到今天AI火起来以后,大概有一大半的人之前都在MSRA呆过。他们那时候做的东西就是跟AI相关的,我那时候去做的也是做跟语音识别相关的东西。 那段经历让我感觉就是,做一些比较新的技术,比较前沿的技术的研究其实是很有意思的。所以在那之后,我决定去国外读一个博士。当然当时做出这个选择的一个原因是说:我觉得我在技术上、工程上没什么问题,但是这种比较深入的技术,比如说机器学习我希望我再深造,再了解得更多。所以我去美国读了一个博士,博士的方向也是比较偏机器学习理论的研究,比较偏理论的东西。 在那个时候我就觉得,首先我对这种新的事物,未知的一些有很强的好奇心,我希望去探索、开拓一些方法。另外我希望自己做的事情是真的能够不停,不止于任务,不止于发一些论文,而是有一些真正产生实际的价值,影响人们的生活,这就是我为什么会积极的去工业界实习的原因。 在我博士期间我去了Google实习。Google给我的印象非常深刻,它不同于其他之前所有的大公司的研究机构,它的研究和生产是结合的非常紧密的,就跟产品和业务是紧密在一起的,它的科学家都是在产品组里面,都是跟业务组在一起的。你每天想的问题都是想,我们怎么样把这个业务再往前继续,你做的事情,做出来了,能够直接影响到百万千万的用户。 当时我觉得是挺有意思的,因为我在微软亚洲研究院实习的时候做的是做与语音相关的东西,那时候我觉得语音识别还不成熟,而且效果也不好。但那时候Google做了一个产品叫 Voice Search(语音搜索),我用了就觉得非常惊艳,它真的解决了我一些问题。就是有时候不方便的时候,我要在手机上搜索,就直接用语音搜索,而且非常准,我觉得很有意思。 PW:那是什么时候? 林晖:那个时候是2010年、2011年,Voice Search其实出来蛮早的。但是Google有这个优势是什么?就是说它能够通过文本的search query(搜索语句),来更好的判断人们说的什么。因为基本上大家搜索的意图是差不多的,无非是不同的形式,用语音还是文本搜索。但是Google之前集约了很多文本搜索的查询的基础。 Google推动 Voice Search的策略对我们现在做流利说其实也很有帮助的,就是说怎么样去冷启动一个与人工智能相关的东西。当时Google做的是一个叫411的项目,就是通过用户去打一个电话,然后查询一个地名。看起来这个项目比较平淡,但是它其实是在做搜集数据的作用。 因为在美国那时候电话还是比较常见,所以通过这个项目,它积累了很多的数据,也就是语音对应的文字的数据。 流利说其实也是这样一个策略,我们一开始想解决的问题是什么?用户开口的问题,就是说哑巴英语,反正中国人学这么多年都是哑巴英语,那我们希望给口语做一个评测,做一个评分。本质上我们想做的可能更多的是识别你说什么。 但是我们一开始没数据,作为一个创业公司,我们那时候就三个人,那时候一开始做的时候也并没有去融资。 PW:哪一年开始做的? 林晖:我们2012年9月开始做。那时候移动互联网刚起来,反正这个具体故事也可以再聊,但是我现在先集中在数据这一块。 一开始其实我们其实是没有数据的,所以怎么可能做一个语音识别的东西呢?后来其实这里有一个蛮巧妙的地方,就是我们通过先launch一个产品,这个产品可以帮你搜集数据,同时又解决了用户一些其他的问题,这个事情就是语音的评分,跟读评分这件事情。 跟读评分比语音识别会简单是因为什么?因为它的文本是给我们自己的,你只要照着读,你其实不需要识别出他具体说了什么,你只要看他说的跟那个预设的文本要说的是不是一样就行了。具体不是语音的波形比对,但是从原理上确实有点像。它的复杂度没有像语音识别那么复杂,因为语音识别你可能相当于不确定性更大,我怎么知道你要说什么,天马行空都可能。但是那个它比较限定,就是说我知道你其实应该读这一句话的,如果你乱说,我给你一个低分就完了,我其实不需要知道你乱说了什么。 (责任编辑:本港台直播) |