第一是自然语音交互。想让机器理解人的语义,需要将人类的自然语言变成程序讲义,让机器理解程序变为一个执行过程。机器必须先听明白用户在表达什么,才能进行对话。 第二是知识的表示和推理。人类发送指令的时候,意义未必明确,目前机器的浅层次理解仍停留在搜索引擎。往往当用户对机器发出“我要听周杰伦”的指令时,它只是列举周杰伦的歌单罢了。但知识的表示和推理是一套连续的验证和推理过程。
在知识的表示和推理背后需要知识图谱,我们可以将每个垂直领域的覆盖看作是垂直知识的构建,但是并不是场景越多,规则就要越多,而是尽可能使用更抽象更通用的规则。 每个人的思维路径是有差异的,同样是选餐厅,有的人会优先考虑团购信息,有的人会优先考虑菜系。所以在面对人类的思维时,弱化规则,只在必要的节点处设置规则,这样既能保证对话应用的任务导向性,又能给予对话足够的灵活度。 第三是自动服务对接。订餐、订票、接音乐、接电视……此类服务需求量级巨大。仅音乐一项就有多少个软件?网易、酷狗、QQ、虾米……每一个软件都是不同的接口,传统的对接方式需要耗费大量人力。 做自动服务对接,戴帅湘对此有独特的理解,戴帅湘曾在“框计算”领域中深耕多年(“框计算”即用户只要在“框”中输入服务需求,系统就能明确识别,并分配给用户最优的内容资源或应用提供商)。自动方式能够节省资源和时间,而做智能语音服务如果能够开发程序实现让机器自动读取、选择接口接入可以事半功倍。 多轮对话的重要性 相比微软的小冰和小娜、苹果的Siri、谷歌的Google Now、百度的度秘等交互引擎,戴帅湘团队开发的Mor引擎一大特点就就在于上下文关联的多轮对话,并且具有场景移植性。 语音助手为的就是在对话中完成服务,如果你想获取信息,它能给你有效的信息,如果你想让它帮你完成任务,它能高效准确地完成。 从这个角度,有很多场景需求需要多轮对话,并能准确地理解连续上下文才能最终达到用户预期的服务。 但戴帅湘同时也表示,多轮对话并不是轮次越多越好,atv,能不能通过对话的方式,帮助人获取信息、完成任务,对话精准和服务精准才是终极目标。 强调生成模型 戴帅湘认为目前在自然语言理解领域里要求大量训练样本的深度学习适用场景比较有限,他们更多的是使用小样本的生成模型。
(蓦然认知创始人戴帅湘) 自然语言理解领域的语义表示是有组合性,而推理的建模强调因果性,很多时候自然语言理解需要有目的、有计划的有步骤的优化过程,而且强调步骤之间的逻辑关系,而现阶段的深度学习更像是一个黑盒子,他只可解决自然语言的中的部分问题,特别当涉及到对话领域,上下文的理解时,深度学习的黑盒子就显得局限很多。 目前比较适合的机器学习算法是生成模型,但是生成模型需要针对问题去建模,其强调的是建模的重要性。利用此类方法建模,一般需先针对问题中的子问题进行“元模型”建模,然后通过有限的推理方法来组合成更大的模型,其推理过程体现的因果关系清晰可见,可以从结果反馈来追本溯源,逐步优化推理中的每个环节,即使在小样本集上往往也能训练出好的效果;而且生成模型推理过程中涉及的参数比较少,一般都对应具体的物理含义,具有很好的可解释性。 迁移学习和增强学习 交互的目的是为了决策,而决策需要记忆和学习。 长期的记忆是用户的个性化习惯或者用户画像的学习,短期的记忆则是对话中最小的可复用的单元,需要去捕捉,这也是建立在前面提到的多轮对话之上。 而在学习方面,戴帅湘在强调迁移学习和增强学习的重要性。 (责任编辑:本港台直播) |