当然这一切感知认知的技术突破的最基础的东西是我们在下面要有超算平台,我们要有足够多的样本,包括今天在声学方面通用领域已经累计了超过三万小时以上的数据,这个数据跟百度是同一个规模的。包括有监督的深度学习,我们跟讯飞、百度在综合指标上基本处在同一水平,而且很多细分领域云知声还有自己独特的优势都是离不开计算能力,离不开我们的数据积累。技术指标的PK说到底都是一个硬碰硬的,没有这些东西是不可能做到的。 云计算像我们以前在谈自然语音对话多轮对话、对话管理,这个只是基于上下文的。能不能和场景结合?我们的云计算更多和场景结合,跟物理场景结合,聊天越多确实证明基础能力,但是用户不希望聊那么多,能不能一两句话搞定,订张票说20句话才能搞定太烦了。我订一张票去青龙峡,直播,提醒我“郊外的晚上温度比较低一些”,类似这样的东西我们希望这种对话能够更加自然更加拟人一些,这个引擎我们目前7月份发布,在车载设备里面已经开始大规模使用。融入双方的人格模型,融入上下文的主题信息,融入知识问答模型,使得对话更像是和人对话而不是机器和设备。
对话云计算是一个助手类的,我们希望不光是像助手倾听你,它有知识、能决策、自学习。像专家一样,你向它求助,不是简单的问询,给你提供信息你自己看着办,能不能帮我来做一些决策。从搜索型向专家型,比如,王总有一个助理,更多交代助理该怎么怎么做,我们到医院问专家,专家就会给你一些决策。明年我们会把这个引擎发布出来。能感知能认知之后,还要有表达能力,比如放到语音里面最简单的我能够把应答用自然语音生成的方式而不是事先试好的文本,自然语音生成类似像机器翻译一样,我把中文的一句话翻译成英文的一句话,自然语音生成结合上下文,上一句话对应下一句话像人一样自动翻译出来,而且用一种像韵律感比较好的合成方式把它表达出来。我们无论是识别、理解、合成、生文识别、唤醒、打断基本都是 Deep Learning 的,当看到有一些PR文章说深度学习芯片的时候,在所有的设备里面芯片里面我们都是基于 Deep Learning 的引擎,Deep Learning 的运算量比较大,要在低功耗低成本芯片里面做的话面临很多问题。我们在过去的一年半里面基本全部解决掉了,而且达到了工业界可以量产的指标。
2012年我们的目标是先把基础做好,把平台做好。2013年底之前云知声基本都是很懵懂的状态,唯一清晰的是技术指标要不断往前提升,因为很多时候技术指标达到一定高度是商业化落地的前提。平台数据上面给我们很多启发,2013年底我们接近了一万家开发者还有企业客户,有很多用户规模很大的APP接入云知声SDK,几乎没有什么量。几乎第一波做语音助手的产品基本都失败了,活跃度很少,当时有些产品用的是我们的SDK,调用量很惨,一天三五千次调用,可以忽略不计。
乐视2012年跟我们合作,2013年第一代产品用我们的交互引擎,那时候乐视电视发货量几十万台,每个用户在语音麦克风不是标配情况下,语音调用量平均20次以上,当时坦率讲我们做的不太好。有人说,老黄你们识别效果不太好。你试试用手机APP通过蓝牙连上性能效果非常好,几乎百分之百。为什么效果不好?因为当时用的按键摇控器为了节约成本丢帧,影响到我们的体验。坦率来讲我们背了黑锅。这样的情况下用户调用量依然非常多。语音的交互一定要跟设备场景相结合。 (责任编辑:本港台直播) |