因此百度又做了语音搜索,在百度搜索的App上放一个语音按钮。通过语音按钮看到的数据跟原来搜索的数据类型不一样。大概做了一年之后发现,数据在这个渠道上的数据趋于同质化。因为百度搜索APP里面用户表达的语音的数据是被一个大环境限制住了。在寻求数据多样化上,这条路走得不会长远。 通过小鱼在家等硬件,不一样的场景,直播,用户表达的就是不一样的语音数据。 因此百度要把这种平台化的能力放到新的设备和新的场景里面看到更多的数据,去训练更好的模型,让模型更通用更实用。小鱼在家是一个新品类的优秀公司,其数据对百度来说价值非常高。 百度作为一个平台需要数据让平台变得更丰满。通过合作和共享数据,让合作者的产品体验更好,让百度的大脑更智能。 从语音交互走向多态交互 DuerOS在语音识别上已经有很多的积累,景鲲向新智元介绍,在实验室环境下各种语音识别测试的准确率是97%,但是在现实家庭场景中,语音的问题还是有一些挑战的。百度模拟家庭环境,收集各种各样的真实家庭情况下语音的表达,从而研究语音的校验。例如测试设备旁边让扫地机器人在那里走,atv,空气净化器在那里放,这种情况下去模拟真实用户的一个情况。 关于唤醒词开启语音交互模式,在很多场景下给用户带来不便。毕竟人和人之间的启动一次交流,也不仅仅是唤名字这一种方式。面对这种质疑,景鲲表示,确实人与人之间的唤醒显得很自然,有时候可能一个眼神或者拍拍肩就唤醒了。建立了一次唤醒之后,可能下面不需要唤醒。 随着技术的发展,百度和小鱼唤醒会变得更自然。例如小鱼在家的设备有非常多的传感器,有视觉传感器。一旦有视觉之后,就跟纯音响设备不一样了,可以盯着你。 新智元也曾报道过牛津大学和DeepMind 的最新研究,他们开发出一款能够阅读唇语的系统,即通过摄像头看用户的唇语,也能读出用户在说什么,并且远远超过人类水平。景鲲表示,唇语以后也可能成为DuerOS唤醒方式。 即便现在,也有人脸识别的唤醒方式。就如刚刚产品演示中,姚晨在小鱼前面,小鱼就会认出姚晨。实际上现在用户可以走到屏幕面前,准备交互的时候,就把小鱼唤醒了,叫做凝视唤醒,也就是我给他一个眼神就唤醒了。 通过听说读写的这样的能力,都可以做交互。未来这个形态不管怎么变,听说读写的能力是不会变的。宋晨枫表示,会持续的在这条路上去找这种多态交互的方式,引领和定义多态交互的方式。 DuerOS比iOS和Android更复杂 DuerOS是一个操作系统,可能比原来iOS和Android更复杂,除了开发厂商和开发者,还会跟芯片方、模组授权方、方案公司等合作。整个产业涉及面非常广。 景鲲表示,做操作系统关键要把心态摆正,目前在合作研发的时候投入了很多人力,这是百度对硬件、对开发者的态度。跟小鱼在家的合作其实是投入了两个团队的力量,来共同研发这样的一款产品,就是为了能够在今天打造一款标杆式的体验,这个标杆式的体验非常重要。 景鲲认为,在移动时代开发一个App本来推广成本很高的,但是开发者的群体里面,一直在找新的平台在做,往往看到新的平台出现的时候开发者一拥而上。 景鲲认为,百度自己本身更希望做平台,不是把力量放在硬件设备上而是硬件平台,这样的硬件平台上就可以把企业的能力放到上面去,把内容带给用户,对开发者也是一种吸引力。对于很多芯片厂商也有吸引力,很多时候芯片厂商也希望跟互联网有更多的沟通,把整个流量变现的生意带到芯片行业去。所以百度要做平台,面对硬件商、芯片商,怎么为他去服务,把他的设备卖得更多,打造成标杆的硬件设备。 景鲲说:“我们为很多开发者去寻找更多的开发平台,这是开发者的诉求,我们为芯片厂商找到更多的销售团队。从我们做操作系统的角度来讲,我们是把我们的能力给他们。” 快、稳、准:80%有用,20%有趣 宋晨枫从DuerOS的重要合作者角度,提出以语音能力为例,他们需要的是在家庭里面做到“有问必答”,并且提出了“快、稳、准”的开发目标。这需要很多的技术,前端、ASR、NLP的技术结合在一起才能做到,而且需要数据训练。小鱼现在是从硬件层做起,包括麦克风阵列,包括算法,当然如果跟后面的ASR系统没有联系的话,中间是有断层的。两个团队的技术和算法合到一起,放到实验室去试,才看到真正的,不是理论上的准确率,而是实际场景中的准确率。 (责任编辑:本港台直播) |