wzatv:【j2开奖】专访“流利说”首席科学家林晖：如何用机器学习帮中国人说好英语(2)_本港台直播_J2开奖直播

我觉得MSRA这段经历对我影响挺大的。那时候它其实是有一些比较前沿的，尖端的一些技术的研发，你可以看到今天AI火起来以后，大概有一大半的人之前都在MSRA呆过。他们那时候做的东西就是跟AI相关的，我那时候去做的也是做跟语音识别相关的东西。

那段经历让我感觉就是，做一些比较新的技术，比较前沿的技术的研究其实是很有意思的。所以在那之后，我决定去国外读一个博士。当然当时做出这个选择的一个原因是说：我觉得我在技术上、工程上没什么问题，但是这种比较深入的技术，比如说机器学习我希望我再深造，再了解得更多。所以我去美国读了一个博士，博士的方向也是比较偏机器学习理论的研究，比较偏理论的东西。

在那个时候我就觉得，首先我对这种新的事物，未知的一些有很强的好奇心，我希望去探索、开拓一些方法。另外我希望自己做的事情是真的能够不停，不止于任务，不止于发一些论文，而是有一些真正产生实际的价值，影响人们的生活，这就是我为什么会积极的去工业界实习的原因。

在我博士期间我去了Google实习。Google给我的印象非常深刻，它不同于其他之前所有的大公司的研究机构，它的研究和生产是结合的非常紧密的，就跟产品和业务是紧密在一起的，它的科学家都是在产品组里面，都是跟业务组在一起的。你每天想的问题都是想，我们怎么样把这个业务再往前继续，你做的事情，做出来了，能够直接影响到百万千万的用户。

当时我觉得是挺有意思的，因为我在微软亚洲研究院实习的时候做的是做与语音相关的东西，那时候我觉得语音识别还不成熟，而且效果也不好。但那时候Google做了一个产品叫 Voice Search（语音搜索），我用了就觉得非常惊艳，它真的解决了我一些问题。就是有时候不方便的时候，我要在手机上搜索，就直接用语音搜索，而且非常准，我觉得很有意思。

PW：那是什么时候？

林晖：那个时候是2010年、2011年，Voice Search其实出来蛮早的。但是Google有这个优势是什么？就是说它能够通过文本的search query（搜索语句），来更好的判断人们说的什么。因为基本上大家搜索的意图是差不多的，无非是不同的形式，用语音还是文本搜索。但是Google之前集约了很多文本搜索的查询的基础。

Google推动 Voice Search的策略对我们现在做流利说其实也很有帮助的，就是说怎么样去冷启动一个与人工智能相关的东西。当时Google做的是一个叫411的项目，就是通过用户去打一个电话，然后查询一个地名。看起来这个项目比较平淡，但是它其实是在做搜集数据的作用。

因为在美国那时候电话还是比较常见，所以通过这个项目，它积累了很多的数据，也就是语音对应的文字的数据。

流利说其实也是这样一个策略，我们一开始想解决的问题是什么？用户开口的问题，就是说哑巴英语，反正中国人学这么多年都是哑巴英语，那我们希望给口语做一个评测，做一个评分。本质上我们想做的可能更多的是识别你说什么。

但是我们一开始没数据，作为一个创业公司，我们那时候就三个人，那时候一开始做的时候也并没有去融资。

PW：哪一年开始做的？

林晖：我们2012年9月开始做。那时候移动互联网刚起来，反正这个具体故事也可以再聊，但是我现在先集中在数据这一块。

一开始其实我们其实是没有数据的，所以怎么可能做一个语音识别的东西呢？后来其实这里有一个蛮巧妙的地方，就是我们通过先launch一个产品，这个产品可以帮你搜集数据，同时又解决了用户一些其他的问题，这个事情就是语音的评分，跟读评分这件事情。

跟读评分比语音识别会简单是因为什么？因为它的文本是给我们自己的，你只要照着读，你其实不需要识别出他具体说了什么，你只要看他说的跟那个预设的文本要说的是不是一样就行了。具体不是语音的波形比对，但是从原理上确实有点像。它的复杂度没有像语音识别那么复杂，因为语音识别你可能相当于不确定性更大，我怎么知道你要说什么，天马行空都可能。但是那个它比较限定，就是说我知道你其实应该读这一句话的，如果你乱说，我给你一个低分就完了，我其实不需要知道你乱说了什么。

(责任编辑：本港台直播)