对话机器人很多,像Siri,小冰,度秘,Allo都能在你有空的时候跟你贫贫嘴,不过随着厂家和用户意识到凭空做出一个高度通用的对话机器人是非常不现实的,对话机器人的姿态也发生细微的变化——厂家们试图从某些垂直领域开始入手深根,并且从纯聊天功能发展到这个对话机器人能为用户完成什么指定的任务功能。一下子为“只说不做” 的对话机器人找到了一个新的场景。 不过,这个全新升级的对话机器人,重心移向代替人决策,并帮用户完成任务。 它如何听懂用户想做什么事情?如何做到聊天过程中都不能达到的Human like leaering? 然后它如何知道第三方App能完成哪些任务,需要点击哪里,然后才能与用户想做的事情对接? 当它的重心变成了为用户完成任务时,它的核心技术要求是什么? ……
这些只有具备多年实战经验才会有的答案,我们邀请到了慕然认知创始人戴帅湘,他家的小慕机器人旨在对话过程中获取和“揣摩”意图,最终实现人类决策,帮助任务执行。戴帅湘,前百度主任架构师,曾长期担任百度Query理解方向负责人,开奖,是自然语言理解方面的技术专家,曾荣获第一个也是迄今为止唯一一个以NLP技术为核心的百度最高奖。2010年提出“Query改写模型”给百度搜索引擎技术带来了跨时代的飞跃,使得搜索相关性和广告收入均大幅提升。该模型比学术界同类模型《Query Rewriting Using Monolingual Statistical Machine Translation》的提出还要早将近1年。此模型迄今为止仍广泛应用于百度所有搜索产品线。申请了自然语言处理,语义搜索,自动问题求解等领域内20多项专利技术。 ▎先介绍一下你们产品中强调的Human-like learning是什么? 对话模型中的One-shot Learning和RL(增强学习)。 One-shot Learning的目的是要从少量样本中进行训练,以解决对话系统的“冷启动”问题; RL是一种无监督的学习,它通过试错的方式来进行学习。针对冷启动后的对话模型,RL可以帮助系统在和用户的实际交互中不断增强对话模型中优势策略,削弱负面策略的影响。实际表现是用户会觉得系统越来越人性化,或者说个性化。 上述这两种学习方法更接近生物体,或者说人的学习方式,所以我更愿意称之为“Human-like Learning”。在对话中,这两者一个处于流程的最前端,一个处于流程的最后端;一个让模型可以冷启动,一个让模型可以实时优化,两者相得益彰。当然,在自然语言理解中,One-shot Learning还可以用在更多地方,比如语义分析这种需要“表示学习”的任务;任务决策这种典型的“多任务学习”场景;还有就是对话场景可移植性问题的处理上,这个地方有点类似大家常听到的“迁移学习”。 ▎用户在语音引擎里提问时,直接给一个正确答案,而不是10个搜索结果的网页链接,关键技术是什么? 其实这里面涉及很多复杂的技术,分不同的层次,也包含不同的学科,如语言学,认知科学,逻辑学,自然语言处理,机器学习等,是多种类关键技术融合交汇的过程。我们暂且可以称之为自然语言理解。 如果把人脑看做一台机器,那么自然语言就是一种适合这种机器识别和运算的语义表示,自然语言通过字构成词,词又构成句子,句子进一步构成复杂的篇章,其体现的是一种由简单组合成复杂,由有限组合成无限的一个过程。 组合性提供了一种生成新东西的能力,但是其并不保证生成出来的都是好的东西,而因果性则正好提供了这一保证。 所以自然语言理解的核心是要在语言的某个层次上对组合性,以及因果性进行建模。用更通俗的话说,前者对应的是语义的表示,后者则是说的知识推理。 语音机器人代替人决策,实现了自动化。这件事有两个难点:一是听懂用户想做什么事情,他说“科比得分最高比赛”的时候,知道他说的是篮球、是视频、是81分,然后才能通过无形的手替人操作。 ▎这个你们怎么运用One shot learning 技术解决的? 这其实就是我上面提到的语义理解,我暂时不能透露具体细节,因为这部分是我们一个重要的创新之一,肯定不是业界和学术界公开的东西,所以暂时还不能说,但我可以从另外一个侧面说一下基本的思路。 (责任编辑:本港台直播) |