得到不同表达的相似度之后,如何精准对应也是一门学问。例如,只要给个人助理EDI发送一条非常简洁的信息“帮我和David订个会议室”,EDI就能帮助员工准确预订好会议室。然而只要打开微软员工目录,就会发现名为David的员工大约有两千名,直播,EDI如何分辨他们并从中确定要和用户开会那个David究竟是哪一个呢?要知道,这两千位名为David的员工,有些位于同一部门,甚至职务也都相同,这时,单单通过机器翻译得到的属性相似度,可能无法做出正确的对应。
精确匹配的突破口在于不同David的职场知识图谱,其网络结构也是不同的,我们使用协同训练(Co-Training)的方法,迭代地进行图结构信息的匹配。在每一轮迭代中,首先利用当前已匹配的实体对,更新神经网络翻译模型,并利用更新后的模型完成属性间的相似度计算;同时,根据当前已匹配节点计算待匹配节点的公共相邻节点对,通过结合属性匹配和图结构,可以得到新的匹配集合,如此迭代直到收敛。 简单说,EDI能将职场知识图谱中同一个David的信息融合到一起,把不同的David放在各自节点上,然后通过参会历史、项目合作、内部的汇报关系等等,了解公司同事之间的远近,从而锁定用户真正想找的David,完成用户交给的安排会议并预订会议室的任务。 信息分析与理解 《黑镜》中的机器人系统对主人公男友在社交网络上的电邮、照片、视频甚至聊天记录进行了深入的分析和学习,从而实现对其惟妙惟肖的模仿。同样,EDI在掌握丰富的信息之后,也需要进一步分析和理解这些数据,才能深入了解企业中的每一个员工。 在一个企业中为员工构建职场知识图谱,最为基本也最为重要的一点,就是构建出每位员工的工作内容时间线,通过时间线我们就可以了解到“who,when,what”,即:谁,在何时,做过什么事情。
有了这些结构化的知识,如果想知道谁在做Cortana相关的项目,只需要问“Who is working on Cortana?”,EDI就能给出你想要的答案。这对构建企业智能应用具有极为重要的意义。 顺带指出,项目名称的抽取也不简单。我们无法通过简单地标注数据、训练模型或是基于规则的方法来进行抽取,因为不同行业、不同领域对于项目的表述可能千变万化,那么EDI是如何抽取出工作内容以及相关项目的名称呢?
我们认为,项目的名称都是语义完整的短语——例如,在“微软亚洲研究院在丹棱街5号”这句话里,“微软亚洲研究院”就是一个语意完整的短语——于是,我们先从企业内部的数据抽取出语意完整的短语,再从这些短语中划分出项目的名称。在微软内部,各种文档、网页等总量在千万这个数量级,而统计规则例如互信息、熵等,在数据量较大的时候可以有效地完成对短语的切分。因此,我们在递归神经网络(Recursive Neural Network)模型中通过后验正则化(Posterior Regularization)引入互信息、熵等统计量定义的偏序切分规则,在完成短语划分的同时,得到其对应的语意向量表示,最后通过度量语意信息来判断其是否是一个项目的名称。 小结 有了基于企业内部和互联网大数据构建员工的职场知识图谱EDI Graph,就能让机器人个人助理EDI Bot拥有聪明的“大脑”,为用户提供贴心的服务。我们将在后续的文章具体介绍EDI Graph怎么被运用到机器人的工作场景中,j2直播,以及怎样通过平台让机器人获得与人进行自然语言对话的能力,敬请关注,也欢迎你就这一题目分享自己的见解和经验。 【大数据挖掘组】 微软亚洲研究院大数据挖掘组致力于从大数据中挖掘信息构建海量知识图谱,以提高人工智能应用中的知识推理和自然语言理解能力。大数据挖掘组的研究方向包括数据挖掘、大数据、深度学习、自然语言处理、智能聊天机器人等。十多年来,该组成员的研究成果对微软的许多重要产品及应用产生了深刻影响,包括人立方、微软学术搜索、读心机器人、微软知识图谱(Satori)、智能聊天机器人开发平台等。 (责任编辑:本港台直播) |