码报:潜心30年，知网知识系统如何从概念层次上计算(4)_本港台直播_J2开奖直播

语知科技有专门的工具做相关性计算，该工具可称之为 Inference machine，他本身就是知识库里面词语所代表的概念，它们本身就具有相关的性质。那相关性比如说同义词、同类词、反义词等，这一类是词语本身在概念的定义上就能体现出相关性。那第二种是我们常识知道的相关性，例如钓鱼和河岸 (Bank fishing 常被机器翻译为「银行钓鱼」) 是有一定的相关性的，但是在词语本身的定义里并不能体现出来。这个时候语知就会使用 Inference machine 去描述它。也就是沿着该概念的义原树搜寻相类似的概念，再用那 2800 多个义原描述它。因此知网有一套自己的解释器，它可以解释这些描述语言。

机器学习通常会强调计算词的相似性而不计算词的相关性。比如说分布式词表征，由于分布假说认为上下文相似的词，其语义也相似，因此在这种表示下，两个词的语义相似度可以直接转化为两个向量的空间距离。但是统计机器学习方法很少有计算相关性的算法，因为基于词汇统计的方法很难找出逻辑关系和从属等关系，也很难利用相关性信息进一步执行语义排歧。

董强先生解释到语知的相似性检测时说：「如果我们拿着「医生」非要跟「行走」计算相似度，因为它们都不在一棵树上了，相似度就非常低了。现在我们在来看看同类词的相似度如何计算。比如说「神经科医生」和「牙科医生」，他们都具有「人」这一相同的义原，而同一个义原是最重要的，然后再考察它后面的义原。第一个是看它的复杂度，比如说像医生和神经科医生，他们两个相似度是非常高，但是他绝对不是相同的义原。神经科医生的复杂度要高一些，它们进行加权或者是除这些节点的时候，复杂的概念就会多除几次，所以说它们会稍微有一点点的区别。因为知网对概念的这种描述方式是嵌套的，描述的层次越深，互相之间关联的时候所加的权值就越弱。当然我们首先要考虑两个概念能不能递归地推理到同一个节点上，如果能达到一个共同的节点，我们再考虑一共爬了多少步，也就是在计算相似度的时候我们考虑加权的值。」

正是这种使用义原树表达概念的方法，我们可以轻松地进行多语种和跨语言处理。因为词语只是概念的表现，所以当我们使用义原树确定不同语言的概念，那么我们可以对这些概念直接运算而不需要做进一步处理。比如说跨语言相似度检测，唯一需要注意的地方就是编码不同语言的不同词汇，当我们将使用义原树将词汇编码成概念后，计算相似度或其他操作就变得十分简单了。

未来

NLP 的目标是做到自然语言理解，语知科技认为知识的运用和 NLU 处理手段的多少决定了 NLP 的效果，所以目前语知科技提供更多的是语义信息。

可扩展的知网知识库

目前语知科技提供的 NLU 服务是基于知网数据库的通用操作，知网数据库的功能很强大，未来会有更多的服务接口提供出来。同时语知语知在基于当前核心的知识库基础上能做进一步扩展。也就是在现有通用型知识库基础上，将专业知识库专业性的概念用特定的义原和关系表达出来，做到通用知识库和专业知识库之间的关系映射。专业知识库和 common-sense 没有冲突，可以解决因此而带来的部分「人工智障」问题。

与深度学习相结合的知识库

语知科技未来进一步发展的基本思路是基于知网在知识体系和 NLU 的优势和深度学习做结合。因为语言学家不是在深度学习的「黑箱」面前无所作为，恰恰相反，语言学家可以帮助计算学家认识语言的内涵和知识，只有双方共同努力，在计算机认知层面才能实现突破。知网知识体系输出是一个重要的发展方向。知网就是一套搭建知识系统的方法理论，利用这一点，我们就可以尝试落地通用知识图谱加专业领域的应用知识图谱。基本方法就是将知网统一的知识库体系规则，以及用义原和关系描述知识点（概念）之间关系的方法用在应用层面的知识库上。这样一体化的知识和常识是不冲突的而且有联系的，因此在知识库交叉领域就可以做到知识（概念）的互通。

(责任编辑：本港台直播)