Microsoft Concept Tagging 模型区别于以往常见的文本推理模型的根本区别是他是基于网络之上的一个推理模型,将文本映射到一个显式的知识空间,将文本概念化。以搜索引擎为例,绝大多数的用户的查询词数量是很少的,搜索引擎在返回结果时需要将查询词进行额外的信息化,将很短的文本映射到大量的概念空间里面,从而解释了这一段文本。 传统的模型对于文本的推理几乎不可解释,而 Microsoft Concept Tagging 模型用不同的概念去描述一个词,并给出对应的概率,使机器能够更好地理解文本,另一方面可计算的显性词向量也体现了我们人类智能与人工智能相结合的理念(HI+AI,human in the loop)。例如社交网络的设置中,工程师可能会人为设置一些关键字去屏蔽一些不当言论,但是并不是每一个敏感词工程师都能准确找到。例如工程师屏蔽了「希特勒」、「纳粹」,直播,却忽略了「法西斯」,现在 Microsoft Concept Tagging 模型就能对已有的概念进行延展,在系统中找到其他类似的相关性很大的关键字,做更多智能的扩展。 理解是万事万物的基础 「我们想做的,是让计算机能够更好地理解人类。」现负责 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的微软亚洲研究院资深研究经理闫峻博士说,「理解是万事万物的基础,我们用计算机抓取过去这些不成文的开放领域的常识,能够帮助计算机更具象地了解这个世界。」
图(从左至右)为微软亚洲研究院研究员纪蕾,资深研究经理闫峻,研究员张大卫。 对于这类知识图谱,学术界和工业界都有参与,但始终离不开一些根本问题:如何去获取实体、实体和实体之间的属性和关联。在过去,知识库系统和人类的思考方式差异巨大。例如「奥巴马生日」,过去计算机能理解这个词的含义,却不能直接给你回答,而此次微软开放的 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型就希望能为人们提供一个更智能化知识图谱,j2直播,借助它,从实体到抽象概念,计算机都能够理解。 谈及 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的下一步计划,闫峻博士表示目前该模型暂只能支持英文,还要和高校合作完成中文的支持工作。在完成中文的知识库构建之后,再逐步扩展到多语言版本。其次,人类的语言还涉及到比喻、夸张和玩笑等高层次跨领域的抽象表达方法,这也是接下来需要让机器不断学习的方向。最后,从短文本的理解到长文本的理解,如理解两个完全不同的故事,但语义层面在表达同样的道理,也是他们接下来不断努力的方向。 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型可以应用于不同的文本处理应用,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等。目前这个模型已经进入了微软的多个产品和服务中。微软亚洲研究院资深研究经理闫峻博士表示:「我们希望 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的发布可以推动知识挖掘、自然语言处理等领域的发展,最终推动人工智能的进步。」 本文根据微软亚洲研究院提供的资料整理而成 本文由极客公园原创 转载联系 [email protected] (责任编辑:本港台直播) |