有一段时间,我们这个指标一度上不去。后来我说算了,把这个回声砍掉吧。亚马逊也没做人声回应。没有人做。因为做这个点的确还是有难度的。 我们的产品经理说,所有用户测试都对这个点非常喜欢。我们的工程师团队说,这个功能我们一定要做,付出再多努力也想把它做得足够好。 今天大家可以看到,就这么一个小的点,我们付出了很大努力。但这个小的点对用户来说非常关键。当你去喊一个人喊不醒的时候,就像永远无法叫醒一个沉睡的人。有时候我叫我们家小朋友,她不理我,我恨不得踢她一脚。大家都有这样的心理。 这是解决今天智能音箱行业和用户距离的第一道坎儿。这个坎儿非常关键。虽然看上去就是一句话,因为只有把它喊醒了,你才能够真正开始跟它沟通。 所以,这是我们做产品的一个技术和产品共同投资的极致点。 第二,点播体验足够爽。 当时我们认认真真地分析用户在怎么使用这款产品,或者怎么使用Echo。我们发现,讲再多的情感陪伴,都不能达到用户预期。但一个更好的音箱是什么呢?叫——想听什么听什么,想说什么就放什么。这需要很强大的技术攻坚。 我们跟喜马拉雅一起,把整个查询体验做了大量优化,这里面也包含了非常多的技术。 首先,我们把内容深度定制。什么意思?开始你只是放一个歌曲库的SDK,然后你接自己的SDK,每一个SDK都有自己的音乐。这时候,你点一首歌,随便在一个SDK里面下载,可能是五年前的版本,也可能下载过来的时候需要五秒钟、十秒钟。 我们没有这样做。我们是把喜马拉雅的内容和音乐曲库,以及各个合作伙伴的音乐曲库,不仅是集成在一起,还做了服务端优化。做到什么细节呢?比如说你想听一个歌曲,可能是周杰伦1999年世界巡回演唱版live版,这个标题念出来就会非常长。我们做了优化,让你听起来就是很简洁的标题截取。 再举一个例子。我们作点播指令时,比如我说“下一首”,但我们知道用户会说“再来一首”,“还有一首”、“再来一个”,我们就为这一个指令准备了上百种指令泛化。这些泛化,今天纯靠人工智能是不可能的。 大家对人工智能可能还是有误解。觉得人工智能上来,世界就和平了,其实不是的。人工智能,有多少智能,就有多少人工,核心是你要把人工花在哪儿。 我们在这样的指定词上,不是一个Demo,而是每个用户得对着手册念“上一首”、“下一首”。我们当时做的标准是要求随便找个用户,随时站在音箱前,对我们的音箱发布指令,就能被识别出来。我们为了遥遥领先竞争对手,对指定词的容忍要到90%以上,就让用户说“再来一首”、“再听一首”、“下一首”,反复说,由此来搜集了用户大量这样的需求和体验。 我们的工程师付出了巨大的努力。刚才贾磊博士在录像里说,这个也是世界首创的,叫LSTM。非常非常牛。这个核心技术的价值在于我们在中英文混排识别上达到了前所未有的成绩。 要知道,有的歌曲里有英文,你在做Demo的时候,可能永远碰不到这样的问题,但作为一个用户产品,当他喜欢英语歌曲的时候,你就没有办法使用这款产品了。此外,我们还做了口语化极致表达、点播,做了很多音频编解码,自己重新写,保证音频的上传速度。 此外,关于唤醒时间。当时亚马逊推出Echo,贝索斯说这个音箱要1.5秒唤醒。当时世界上所有的音箱,除了Echo之外,都在3秒。我说,我们也要做到1.5秒唤醒。为这个1.5秒,也是投入了巨大精力。它不仅是一个人工智能,还有各个地方都要进行优化。做到1.5秒后,用户问时就能快速反应,真正做到点得爽。 第三,我们还希望做到这个星球最温暖的AI。 为了让小雅音箱更有情感,我们做了很多工作。大家觉得只要能听懂它说什么就够了。但我觉得如果是一个陪伴孤独的产品,不能越听越孤独,我们一定要温暖。 公司团队刚刚开始创业时,和喜马拉雅一起在这方面投入了非常多的资金和人力。比如用户想播首英语歌曲,困难在于:所有中文的发音当中,中文和英文合拍念出来是很难的,为什么呢?因为往往录音的人。录中文是一批人,录英文又是一批人。两种语言结合起来,再用机器学习学出来,声音就会变得非常怪。 坦率讲,我们这个当时也没有录音。后来,我为了找到一个声色很像的英语发音人,众里寻他千百度,终于找到了一个能够和中文发音很像的女孩子,录了很多英语的音。 (责任编辑:本港台直播) |