语知科技有专门的工具做相关性计算,该工具可称之为 Inference machine,他本身就是知识库里面词语所代表的概念,它们本身就具有相关的性质。那相关性比如说同义词、同类词、反义词等,这一类是词语本身在概念的定义上就能体现出相关性。那第二种是我们常识知道的相关性,例如钓鱼和河岸 (Bank fishing 常被机器翻译为「银行钓鱼」) 是有一定的相关性的,但是在词语本身的定义里并不能体现出来。这个时候语知就会使用 Inference machine 去描述它。也就是沿着该概念的义原树搜寻相类似的概念,再用那 2800 多个义原描述它。因此知网有一套自己的解释器,它可以解释这些描述语言。 机器学习通常会强调计算词的相似性而不计算词的相关性。比如说分布式词表征,由于分布假说认为上下文相似的词,其语义也相似,因此在这种表示下,两个词的语义相似度可以直接转化为两个向量的空间距离。但是统计机器学习方法很少有计算相关性的算法,因为基于词汇统计的方法很难找出逻辑关系和从属等关系,也很难利用相关性信息进一步执行语义排歧。 董强先生解释到语知的相似性检测时说:「如果我们拿着「医生」非要跟「行走」计算相似度,因为它们都不在一棵树上了,相似度就非常低了。现在我们在来看看同类词的相似度如何计算。比如说「神经科医生」和「牙科医生」,他们都具有「人」这一相同的义原,而同一个义原是最重要的,然后再考察它后面的义原。第一个是看它的复杂度,比如说像医生和神经科医生,他们两个相似度是非常高,但是他绝对不是相同的义原。神经科医生的复杂度要高一些,它们进行加权或者是除这些节点的时候,复杂的概念就会多除几次,所以说它们会稍微有一点点的区别。因为知网对概念的这种描述方式是嵌套的,描述的层次越深,互相之间关联的时候所加的权值就越弱。当然我们首先要考虑两个概念能不能递归地推理到同一个节点上,如果能达到一个共同的节点,我们再考虑一共爬了多少步,也就是在计算相似度的时候我们考虑加权的值。」 正是这种使用义原树表达概念的方法,我们可以轻松地进行多语种和跨语言处理。因为词语只是概念的表现,所以当我们使用义原树确定不同语言的概念,那么我们可以对这些概念直接运算而不需要做进一步处理。比如说跨语言相似度检测,唯一需要注意的地方就是编码不同语言的不同词汇,当我们将使用义原树将词汇编码成概念后,计算相似度或其他操作就变得十分简单了。 未来 NLP 的目标是做到自然语言理解,语知科技认为知识的运用和 NLU 处理手段的多少决定了 NLP 的效果,所以目前语知科技提供更多的是语义信息。 可扩展的知网知识库 目前语知科技提供的 NLU 服务是基于知网数据库的通用操作,知网数据库的功能很强大,未来会有更多的服务接口提供出来。同时语知语知在基于当前核心的知识库基础上能做进一步扩展。也就是在现有通用型知识库基础上,将专业知识库专业性的概念用特定的义原和关系表达出来,做到通用知识库和专业知识库之间的关系映射。专业知识库和 common-sense 没有冲突,可以解决因此而带来的部分「人工智障」问题。 与深度学习相结合的知识库 语知科技未来进一步发展的基本思路是基于知网在知识体系和 NLU 的优势和深度学习做结合。因为语言学家不是在深度学习的「黑箱」面前无所作为,恰恰相反,语言学家可以帮助计算学家认识语言的内涵和知识,只有双方共同努力,在计算机认知层面才能实现突破。知网知识体系输出是一个重要的发展方向。知网就是一套搭建知识系统的方法理论,利用这一点,我们就可以尝试落地通用知识图谱加专业领域的应用知识图谱。基本方法就是将知网统一的知识库体系规则,以及用义原和关系描述知识点(概念)之间关系的方法用在应用层面的知识库上。这样一体化的知识和常识是不冲突的而且有联系的,因此在知识库交叉领域就可以做到知识(概念)的互通。 (责任编辑:本港台直播) |