如果人工智能技术的成熟还需要五年、甚至十年的时间,那我们至少可用手上的技术,让小雅变成一个真正好用的音箱,让用户拥有从未体验过的音箱体验。当我们把这个定义点想清楚的时候,眼前豁然开朗。 我们开始围绕这个产品,不停思考,需要怎样的技术点,什么是对用户来说是最好的音箱? 好在,我们很幸运。猎户星空虽然只有一年的历史,但它有一支技术上非常牛的团队。有一批超过30个博士,上百个在行业内有五年以上工作经验的工程师。猎户最幸运的还不止是这帮工程师,或他们的博士学位、工作经验,而是他们很重视用户体验。 与此同时,我们又找到了一群特别尊重技术的产品经理。我觉得,这不是一个简单用技术来刷分或刷指标就能做出来的产品,也不是产品经理想个点子,就能让这个音箱解决所有的孤独症,关键在于——我们要把产品的定义想清楚。 所以,atv直播,我们定义了三个点,叫做:有呼必应、点播体验、海量内容。 我们拿这个点和喜马拉雅碰了以后,他们特别认同。但你知道,做出这样的产品定义是不太容易的事情。因为,摆在你面前,似乎有无数种可能。如果你只想做一个炫技的Demo,可以让它在各种场合显得智能,那目标就很简单。但我觉得应该把我们的技术聚焦在用户体验。 如果用户面对一个音箱喊不响它,无论这个音箱有多么海量的内容,也不可能用它。为了有呼必应,我们投入了大量技术资源。产品和技术一起,克服了非常多看似不可能逾越的困难。今天我们的有呼必应在行业里应该可以排到第一。 也有很多人问:为什么这么短的时间,你们就能做出有特色的产品?其实不是因为我们的工程师就比大公司多,也不仅是因为我们今天有一些技术,而是我们真的专注在用户体验的痛点。 比如有呼必应。我们试用了世界上所有的智能音箱产品,基本你喊它的时候和录像里面完全两个产品。什么情况呢?就是你的嗓子经常容易喊破,还不理你,有时它可能会突然开始跟你说话或播音乐。刚才樊登说,他买了某产品,半夜突然开始给你唱歌,这个真是让你更孤独,而且还容易被吓到。 围绕这些问题,我们坚信单点极致,决定把唤醒这一个看上去非常简单的点做好。我们也没有炫技。没有把唤醒变成“小雅”两个字,而是“小雅小雅”四个字。因为我们知道,没有小雅这两个字的话,会大幅增加误唤醒,增加用户使用的不便利性。 当然了,在这里就有很多技术。比如今天在全行业能做6+1(指 6+1 环形麦克风阵列)硬件的公司可能不超过两三家。包括我们在内。我们在这点上大力投入,几乎和亚马逊Echo匹敌。我们能做到5米之外唤醒,而且比较没有压力的唤醒。你不需要大着嗓子喊,只需要一个正常的语调。 我们还做到了软件上的提升。其实我也不太懂,但我知道是一个很牛的技术,基于汉字整体建模的CNN唤醒技术,它实现的效果是什么? 第一,高清度唤醒。我们能在正常的情况下实现95%以上的唤醒,今天做不到100%,但95%,用户是可以接受的。绝大多数时候,我们给各种用户演示,包括和我们很多合作伙伴看,他们觉得唤醒特别精准。 第二,业内最低的误报。每天晚上,我们办公室都环绕着各种声音,做误唤醒报告。如果我们只是为了炫技,我们可把唤醒预期标到更高。比如98%、99%,甚至每唤必醒。但问题在于,每天就可能出现突然喊你一嗓子。所以,为了压低自己的误唤醒,就需要调整我们的唤醒,这是个矛盾,大家能理解吗?在这方面,我们投入了大量精力。不断拿着指标,跟着竞争对手一个个对比,直到我们认为超过。 此外,实现大音量下的唤醒。你开着电视的时候,人声嘈杂,我们的唤醒都能做到行业里最好的水平。就在这些看上去的很小的点上,我们投入了大量的精力。让我特别感动的是,当(小雅回复)“诶”的时候,直播,很多人都在鼓掌,这是我们行业内第一个做到人声回应。 大家可能不知道,为什么业界首个人声唤醒这么难呢? 因为,当你说“我在”的时候,那个回音会在音腔里环绕,造成下一句话解析时出现误识别。为了要把这个误唤醒的误识别去掉,你要付出很多努力。但我们为什么做呢?除了温暖之外,还有一点,我们假设是一个原厂唤醒,在这种情况下,音箱上的光带是看不见的。如果用户喊了以后,它没有响声,用户就傻了。不知道该不该说话。这就会给用户造成局促感。 (责任编辑:本港台直播) |