毛华:你说的很专业,但这些都不是什么太大的问题,语义要有纠错能力,比如用Siri,我说“我要去西溪乐谷”,它只知道“西溪肋骨”,但是讯飞和小微就知道是”西溪乐谷”,这是因为它知道这个意图是要去一个地方,这个地方叫乐谷,不是要去身上的肋骨,我们首先要识别意图是干什么,然后在意图下理解更多的关键信息,这里就需要纠错能力。 群友C:标准是不是后面可以再加两个,一个是语音反馈的节奏,就像我们人和人对话,说不同事情,语速和节奏是很自然的;第二个标准是语音表达能否更人性化,更自然一些,现在满满的机械感。 毛华:你说的是TTS,就是把文本转成语音,这个目前实现得还可以,但还有很大的提升空间,目前语言交互的声音语调基本还算是人话,但还需要提升,特别是没有那些感叹词,比如“呵呵”“嘻嘻”,不太自然,如果能有感叹词那些语调就会自然很多。 群友B:人名、地名都很难处理。 毛华:我们仍然需要学习,如果你要打电话或发消息给谁,就要对应的人名。QQ、微信的联系人就更神奇了,什么符号都有,这个用语音就没办法了,只能判断其中可读部分的词了。 5.腾讯内部如何高效协同? 群友A:多个团队一起做小微,对于腾讯这样的大企业内部协同会比较难吧?怎么处理的呢? 毛华:合作的着眼点在于是否达到双赢,这点很重要。要站在对方角度思考能你给他带去了什价值么。如果有价值,合作就一定很顺。合作不顺一定是没有替对方思考。 群友B:应该有一个专门负责整合的团队吧? 毛华:战略的同学会帮忙整合,但只限于帮忙撮合。 群友C:腾讯是同一品类都有两个不同的团队在做,看谁最终被市场认可吗? 毛华:只要有团队之间的利益共享都有可能合作好。内部竞争也是必不可少的,但都是良性竞争。 6.语音互动大生态探讨 群友A:语音互动上下游的产业链可以大致介绍一下吗? 毛华:我的理解是左右游,左边是硬件,右边是Skill,这是一个大生态。 群友A:对于Skill,我的理解应该可以分很多步骤或叫做交互,可以讲解一下吗?以及每个步骤或交互的关键技术、机会等。 毛华:理论上可以有多个步骤,开奖,但不建议多于3个。首先语音交互的着眼点是效率,如果需要互动3次才能得到答案就没有效率了。就像打电信的服务电话10000号,拨进去一串问题,一项服务要等很久才知道下一步要做什么,效率非常低,也会让人很不耐烦。多轮交互只是在部分关键点信息缺失时才用到,比如“今天天气怎么样”,没有提到城市,就会反问“请问你要了解哪个城市的天气情况?”,语音交互的着眼点一定是效率优先。 但语音也并非总是最有效率的交互形式,比如要查天气,如果打开手机就需要好几个步骤,此时用语音效率最高,说一句话一下就得到了结果。但是得到结果之后呢?要从天气的第一个字开始听到最后一个字可能需要10多秒,而用屏幕出来一个太阳加温度,可能眼睛一扫,2秒就知道了所有信息,而此时屏幕视觉的效率最高,所以语音要与屏幕结合才能达到最高的效率。 群友A:这个似乎和硬件的产业链含义不太一样,硬件有平台、系统、器件、材料、生产再加上各个部分的应用或软件架构等多个环节,从而组成整合硬件产品。 毛华:一定是不一样的,硬件在语音生态中只是一环,硬件本身还有产业链。 群友A:语音生态都有哪些内容,每个内容的关键技术和机会所在呢? 毛华:理论上内容可以有非常多,应用宝上的每个APP都可以是语音的内容,Skill本身可以理解为是一个APP。 群友B:这个APP已经不止软件了,包括实物,就是一个载体。 毛华:是的,包括内容 、服务、其它硬件(被控制的设备,比如灯)。 7.腾讯在语音生态中扮演的角色 群友A:我创业做了一个和腾讯小微一样的东西,一套原本用于车载中控屏的系统,在我加入后觉得不要碰百年历史的汽车供应商体系,不碰硬件,改到共享汽车和共享单车市场,原本可以帮到真格投资的ofo和途歌共享汽车免于投资打水漂,现在看来腾讯出手,我们就没得玩了。 毛华:这是一个大生态,我认为创业公司可以做其中一环,但不适合大生态,这里最关键的不是技术本身,而是生态内容服务能力。 群友B:腾讯这边是以提供云服务和平台为主,会有自己的硬件产品吗? 毛华:腾讯有团队在做硬件,但小微是一个平台,无论对内还是对外都是一样的支持。 群友C:语音生态腾讯会自己做,还是会联合(帮助)创业企业一起做?腾讯希望在里面作为什么角色? (责任编辑:本港台直播) |