本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:现场实录丨傅盛:人工智能的破局点是技术和产(3)

时间:2017-06-21 07:48来源:香港现场开奖 作者:www.wzatv.cc 点击:
还有就是大家刚才都听到的,让我特别感动的是,当时(小雅回复)“诶”的时候很多人都在鼓掌,这是我们行业内第一个做到人声回应的,大家可以再听

还有就是大家刚才都听到的,让我特别感动的是,当时(小雅回复)“诶”的时候很多人都在鼓掌,这是我们行业内第一个做到人声回应的,大家可以再听一遍。这是我们当时的产品经理提出来的,大家可能不知道为什么业界首个人声唤醒这么难呢?

是因为当你说“我在”的时候,那个回音会在音腔里环绕,造成下一句话解析的时候出现误识别,你为了要把这个误唤醒的误识别去掉,其实你要付出很多的努力。但是我们为什么要做呢?除了大家觉得温暖之外,还有一点,因为我们假设是一个远场唤醒,所以那个光带我们在这种情况下是看不见的,当用户喊了以后,它没有响声的时候,我们就傻了,我不知道该不该说话,atv,给用户造成了局促感。

其实一度有一段时间我们这个指标上不去,后来我说算了,把这个回声砍掉吧,亚马逊也没做人声回应,没有人做,因为做这个点的确还是有难度的。我们的产品经理说,我们见的所有用户测试都对这个点非常喜欢,我们的工程师团队说,这个功能我们一定要做,我们付出再多努力也想把它做得足够好。

所以今天大家可以看到,就这么一个小的点,但是这个小的点对用户来说非常关键。当你去喊一个人喊不醒的时候,永远无法叫醒一个沉睡的人,有时候我叫我们家小朋友,她不理我,我恨不得踢她一脚,大家都有这样的心理。

所以我认为这是解开今天智能音箱行业和用户距离的第一道坎儿,这个坎儿非常关键,虽然看上去就是一句话,因为只有把它喊醒了,你才能够真正开始跟它沟通。

所以,这是我们做产品的一个技术和产品共同投资的极致点。

第二,点播体验足够爽。

当时我们认认真真地分析用户在怎么使用这款产品,或者怎么使用Echo的时候,我们觉得讲再多的情感陪伴,今天如此,可能都不是能够达到用户预期的,但是一个更好的音箱叫想听什么听什么,想说什么就放什么,这点上我们也是投入了大量的精力。

我们认为听一个歌,听音频,我们跟喜马拉雅同时一起,把整个查询体验做了大量优化,包括很多技术,这里面可以堆积非常多的技术。

首先是我们把内容深度定制。什么意思?就像陈总说的,开始你只是把SDK放下来,然后你接自己的SDK,每家都有音乐。这时候你点一首歌,随便再一个SDK里面下行,可能是五年前的版本,也可能下过来的时候需要五秒钟、十秒钟。

我们把喜马拉雅的内容和音乐曲库,各个合作伙伴的音乐曲库,不仅是集成在一起,而且做了服务端优化,包括到什么细节呢?比如说你想听一个歌曲,可能是周杰伦1999年世界巡回演唱版live什么的,这个标题念出来就会非常长。我们做了优化,让你听起来很简洁的标题截取。

我们还做了大量的厂商深度定制,这里有非常多的,刚才已经介绍过了,不就不再一一讲了。

比如说再举一个例子,我们在点播的指令说,比如说我说“下一首”,但是我们知道用户会说“再来一首”,我想不止,“还有一首”、“再来一个”,我们为这一个指令准备了上百种指令泛话,这些泛话今天纯粹靠人工智能,大家对人工智能可能还是有误解,觉得人工智能上来,世界就和平了,其实不是的。人工智能,有多少智能就有多少人工,核心是你要把人工花在哪儿。

所以我们在这样的指定词上,我们不是一个Demo,说每个用户得对着手册念“上一首”、“下一首”,我们准备了,我们当时做的标准是随便找个用户,随时站在音箱前,对我们发布指令,我们要遥遥领先竞争对手,对指定词的容忍要到90%以上,用户说“再来一首”、“再听一首”、“下一首”,搜集了用户大量这样的体验。

当然除此之外,我们的工程师也付出了巨大的努力,刚才贾磊博士在录像里说,这个也是世界首创的,叫LSTM。非常非常牛,这个核心的牛就是使得我们在中英文混排识别上达到了前所未有的成绩。因为你知道,有的歌曲里面有英文,这些都是小的细节,你在做Demo的时候,可能永远碰不到这样的问题,但是作为一个用户产品,当他喜欢英语歌曲的时候,你就没有办法使用这款产品了。

我们还做了口语化表达,极致点播,我不一一叙述了。

我们还做了很多音频编解,我们自己重新写,保证音频的上传速度。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容