本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:潜心30年,知网知识系统如何从概念层次上计算(2)

时间:2017-08-06 00:13来源:本港台直播 作者:www.wzatv.cc 点击:
总的来说,深度学习目前真正的成功是具备在拥有大量人工标注数据的情况下,使用持续的几何变换在样本空间与预测空间之间建立映射的能力。把这件事

总的来说,深度学习目前真正的成功是具备在拥有大量人工标注数据的情况下,使用持续的几何变换在样本空间与预测空间之间建立映射的能力。把这件事做好就可以从根本上变革每个行业,但是我们离人类水准的 AI 仍有很大距离。而语知这种基于知网语言知识库而进行的概念性计算能弥补深度学习的不足,令自然语言处理更接近于自然语言理解的过程。

知网的结构与概念计算

从上文我们已经了解到概念层面的计算拥有强大的潜力,它能克服很多 NLP 深度模型的局限性。那么我们该如何将词或句子层面计算转化为概念层面的计算呢?语知基于知网语言知识库将词或句子的概念表达为一棵棵义原树,进而执行各种计算。所以下面我们将了解知网语言知识库的结构特点,以及它是如何使用义原和关系等以树的形式来描述词或概念。

知网知识库的结构

知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。富有知识的人不仅掌握了更多的概念,同时也掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。所以知网是一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。

董强先生表明,义原(Sememe)是最基本的、不易于再分割的意义的最小单位。例如:「人」虽然是一个非常复杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原可以组合成一个无限的概念集合。如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,我们就有可能建立我们设想的知识系统。

码报:潜心30年,知网知识系统如何从概念层次上计算

董强先生说:「义原的是知网基本应用的描述单位,它是基于我们的观察而得出,比如说现代汉语词典,它仅使用 2000 多汉字就能解释所有的词条。所以知网的方法就是对大约六千个汉字进行考察和分析来提取有限的义原集合。以事件类为例,在中文中具有事件义原的汉字(单纯词)中曾提取出 3200 个义原。但我们需要对重复义原进行合并,3200 个事件义原在初步合并后可得到 1700 个,进一步归类后得到大约 800 多个义原。因为这些义原完全不涉及多音节的词语,所以我们需要将其作为标注集去标注多音节的词。最后我们需要对所有 2800 多个义原进行编码,编码采用助记符的形式表达,如词语「打开」,其中一个概念是「打开一个东西(盒子)」的动作,用义原 {open|打开} 表示,另外一个意思例如「打开一盏灯」,义原的表示的方式就是 {turn on|打开}。

理解什么是义原也不复杂。朗文词典规定用二千多个字去解释和定义所有的词语,HowNet 定义义原也是这个思路,我们从语言学的角度抽取出来这 2800 多个最基本的没有歧义的语言概念就是义原。我们用它和关系做结合,去描述所有的概念,所以 HowNet 是一个网状结构。

概念的表征

知网还着力要反映概念之间和概念的属性之间的关系。知网知识网络体系明确地提供给了计算机,因此我们可以输入形式化的知识而构建计算机系统来实现自然语言处理任务。如下图所示,我们不仅需要义原,同时还需要它们之间的关系来表示知识。通常一个词其具体的概念会采用树型的结构利用义原和关系描述该概念。例如「医院」这一个词的概念根据具体语境可定义为 DEF={InstitutePlace|场所:domain={medical|医},{doctor|医治:content={disease|疾病},location={~}}},我们可以看到整个词的概念属性可以由多个义原按照关系和层次进行定义。

码报:潜心30年,知网知识系统如何从概念层次上计算

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容