本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【钛坦白】腾讯物联云语音云总经理毛华:语音(2)

时间:2017-07-27 01:06来源:118图库 作者:开奖直播现场 点击:
我们的理解是: 未来硬件会是一个瘦终端,对硬件本身的要求会很低,而真正的能力都在云端 。比如一个小盒子,也许只需要两个麦克风、一个小喇叭、

我们的理解是:未来硬件会是一个瘦终端,对硬件本身的要求会很低,而真正的能力都在云端。比如一个小盒子,也许只需要两个麦克风、一个小喇叭、一个WiFi模块外加一个外壳就行,在深圳这样的设备也许成本只需30元就搞定了,但是它所具备的能力却相当大。有的App也许不需要App的外壳,把内容和服务抽取出来,比如滴滴可以没有App只有服务,有人做了一个硬件的壳,加上2G网络,对着设备叫车,然后车就来了,这个硬件就是App。内容可以有多个不同的外壳,但内容无处不在。

钛坦白群友互动 1.智能音箱提示音问题的探讨

群友A:有个知名媒体人最近发了篇文章,吐槽智能音箱每句命令前都需要大喊一句命令,比如“叮咚叮咚”“小微小微”,这样的交互比较不自然。

群友B:这个“命令”的字段可以修改吧?

毛华:是的,这里的自然顺畅与实际应用场景有关系。

群友A:就算修改,也是要一个命令。

群友B:最好是日常用语,这种“叮叮当当”比较奇怪,出厂预设几个供用户选择。

毛华:唤醒词就像人的名字,语音互动就像是两个人交流,但如果在场的有三个人,都闭上眼睛说话,谁都不知道跟谁在说话,所以需要具体用名字来指向,唤醒词就是这个名字,你在说话前先喊一下这个人的名字,对方才知道是在跟他说话,不过有些是有上下文关系,可以省略部分场景下的唤醒词。

2.智能音箱误唤醒的技术调整

群友A:音箱的声音特别大的时候,你召唤它,它听不见你跟它说话会不理你,这个时候要把音箱的声音调小,它才能识别人的语言。

毛华:唤醒和误唤醒是对Array的考验,我试过一个7mic的Array,做得很不错,12米带噪音环境下使用效果不错,不过未量产,希望这样有能力的公司以后能为语音能力做出更多贡献。

群友B:7mic听起来有点多,看来未来也需要硬件的整合能力啊。

毛华:我本人认为,在中国音箱产品未必是最好的形态,中国对音箱的需求不一样,中国人对蓝牙音箱和耳机的需求很大。

群友A:现在语音主要实现功能强大,未来实现语音性能多样化,直播,比如HIFI音质,这样会越来越淡化硬件,因为在后台或云端就都被语音整合好了。

群友C:但是目前经过印证的智能家居中,音箱被公认是比较容易做的起来的,所以亚马逊、谷歌、苹果都在发力。

毛华:中国与美国不一样,美国是大house,中国是公寓,对于音乐的理解也不一样。

群友A:亚马逊语音也是一个偶然的产物吧。

毛华:我的理解就是一个偶然产物。

群友D:同意您的观点,音箱不是最好的场景。家庭智能解决的是连接,语音非关键。

3.智能音箱如何识别用户身份?

群友A:如果小孩子唤醒了小微,下了一个订单或者叫了一辆车,实际上并不需要,这个场景怎么避免?

毛华:这个跟小孩拿了手机买游戏币是一样的问题,不过我们可以有声纹,声纹用于身份验证。

群友A:如果我希望小孩正常使用,比如听歌什么的,是不是还要设置不同的权限,比如家长模式?

毛华:我们有歌单,歌单通过QQ或微信帐号绑定,同时绑定声纹。这样每个人都可以听到自己的歌单,出来的内容是自己QQ音乐里的,并且可以通过声纹进行认证。

4.语音交互质量的评判标准

群友A:关于语音交互质量,腾讯有没有评判标准?

毛华:这里特别要提只有少量内容的才可以做到各种识别能力的提升,交互质量在于返回的内容是否符合用户的预期,我们有自动化测试。

群友A:怎样的标准呢?对或者错?怎么算对?

毛华:对错的评判有的有标准答案,有的没有,没有的情况下会进行人肉判断,请几路专家打分。

群友A:语义理解有很高的技术门槛,听见了不等于听懂了,还存在同音词问题。

毛华:这跟语境有关,上下文和语境是AI的一个关键点,语音识别率的提升只是时间问题,随着麦克风阵列和算法的提升,识别能力必然可以提升,相信明年就会不一样。

群友B:语义理解我们提了四个标准:1.差异性,“你干嘛”和“你干嘛的”要能分开;2.同一性,“你公司在哪里”“贵司在什么地方”要能理解语义相似性;3.模糊性,“小明的生日是哪天”要能正确理解;4.一致性,就是前后说话要一致。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容