wzatv:傅盛：人工智能的破局点是技术和产品结合【猎(2)_本港台直播_J2开奖直播

如果人工智能技术的成熟还需要五年、甚至十年的时间，那我们至少可用手上的技术，让小雅变成一个真正好用的音箱，让用户拥有从未体验过的音箱体验。当我们把这个定义点想清楚的时候，眼前豁然开朗。

我们开始围绕这个产品，不停思考，需要怎样的技术点，什么是对用户来说是最好的音箱？

好在，我们很幸运。猎户星空虽然只有一年的历史，但它有一支技术上非常牛的团队。有一批超过30个博士，上百个在行业内有五年以上工作经验的工程师。猎户最幸运的还不止是这帮工程师，或他们的博士学位、工作经验，而是他们很重视用户体验。

与此同时，我们又找到了一群特别尊重技术的产品经理。我觉得，这不是一个简单用技术来刷分或刷指标就能做出来的产品，也不是产品经理想个点子，就能让这个音箱解决所有的孤独症，关键在于——我们要把产品的定义想清楚。

所以，atv直播，我们定义了三个点，叫做：有呼必应、点播体验、海量内容。

我们拿这个点和喜马拉雅碰了以后，他们特别认同。但你知道，做出这样的产品定义是不太容易的事情。因为，摆在你面前，似乎有无数种可能。如果你只想做一个炫技的Demo，可以让它在各种场合显得智能，那目标就很简单。但我觉得应该把我们的技术聚焦在用户体验。

如果用户面对一个音箱喊不响它，无论这个音箱有多么海量的内容，也不可能用它。为了有呼必应，我们投入了大量技术资源。产品和技术一起，克服了非常多看似不可能逾越的困难。今天我们的有呼必应在行业里应该可以排到第一。

也有很多人问：为什么这么短的时间，你们就能做出有特色的产品？其实不是因为我们的工程师就比大公司多，也不仅是因为我们今天有一些技术，而是我们真的专注在用户体验的痛点。

比如有呼必应。我们试用了世界上所有的智能音箱产品，基本你喊它的时候和录像里面完全两个产品。什么情况呢？就是你的嗓子经常容易喊破，还不理你，有时它可能会突然开始跟你说话或播音乐。刚才樊登说，他买了某产品，半夜突然开始给你唱歌，这个真是让你更孤独，而且还容易被吓到。

围绕这些问题，我们坚信单点极致，决定把唤醒这一个看上去非常简单的点做好。我们也没有炫技。没有把唤醒变成“小雅”两个字，而是“小雅小雅”四个字。因为我们知道，没有小雅这两个字的话，会大幅增加误唤醒，增加用户使用的不便利性。

当然了，在这里就有很多技术。比如今天在全行业能做6+1（指 6+1 环形麦克风阵列）硬件的公司可能不超过两三家。包括我们在内。我们在这点上大力投入，几乎和亚马逊Echo匹敌。我们能做到5米之外唤醒，而且比较没有压力的唤醒。你不需要大着嗓子喊，只需要一个正常的语调。

我们还做到了软件上的提升。其实我也不太懂，但我知道是一个很牛的技术，基于汉字整体建模的CNN唤醒技术，它实现的效果是什么？

第一，高清度唤醒。我们能在正常的情况下实现95%以上的唤醒，今天做不到100%，但95%，用户是可以接受的。绝大多数时候，我们给各种用户演示，包括和我们很多合作伙伴看，他们觉得唤醒特别精准。

第二，业内最低的误报。每天晚上，我们办公室都环绕着各种声音，做误唤醒报告。如果我们只是为了炫技，我们可把唤醒预期标到更高。比如98%、99%，甚至每唤必醒。但问题在于，每天就可能出现突然喊你一嗓子。所以，为了压低自己的误唤醒，就需要调整我们的唤醒，这是个矛盾，大家能理解吗？在这方面，我们投入了大量精力。不断拿着指标，跟着竞争对手一个个对比，直到我们认为超过。

此外，实现大音量下的唤醒。你开着电视的时候，人声嘈杂，我们的唤醒都能做到行业里最好的水平。就在这些看上去的很小的点上，我们投入了大量的精力。让我特别感动的是，当（小雅回复）“诶”的时候，直播，很多人都在鼓掌，这是我们行业内第一个做到人声回应。

大家可能不知道，为什么业界首个人声唤醒这么难呢？

因为，当你说“我在”的时候，那个回音会在音腔里环绕，造成下一句话解析时出现误识别。为了要把这个误唤醒的误识别去掉，你要付出很多努力。但我们为什么做呢？除了温暖之外，还有一点，我们假设是一个原厂唤醒，在这种情况下，音箱上的光带是看不见的。如果用户喊了以后，它没有响声，用户就傻了。不知道该不该说话。这就会给用户造成局促感。

(责任编辑：本港台直播)