本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:潜心30年,知网知识系统如何从概念层次上计算(3)

时间:2017-08-06 00:13来源:本港台直播 作者:www.wzatv.cc 点击:
整个知识网络都是以义原为基础建立起来的概念性系统。义原是通过关系描述概念的最小单位, 开奖 ,知网认为它是一种最基本的概念,任何复杂的概念

整个知识网络都是以义原为基础建立起来的概念性系统。义原是通过关系描述概念的最小单位,开奖,知网认为它是一种最基本的概念,任何复杂的概念都是由基本概念通过某种关系构建而成,而知网用基本单位描述这种关系的方法我们称之为 KDML(Knowledge Database Markup Language),这种描述方法将复杂中多个义原嵌套和多个关系嵌套的问题解决了。

因此,词层面的计算就能转换为概念层面的计算。而且即使我们所使用的词汇增长或变更较快,但概念的增长曲线要平缓地多,所以概念相对于词汇更具鲁棒性。而深度学习使用得最多的词汇表征方法是词嵌入,代表性的就是 word2vec 方法。词嵌入是一种词的分布式表征,它基于神经网络。我们一般可以通过神经网络对词的上下文,及上下文与目标词之间的关系建模。这里我们注意到它的操作层面还是词汇,所以不论是使用如 word2vec 或自编码器那样的弱监督预训练还是端到端的有监督训练,其计算复杂度和所需要的计算资源仍然远远大于基于知网知识库的概念计算。

如何计算概念

在我们将词汇概念化并使用义原树表征后,接下来我们需要考虑如何在各类任务中利用知网知识库和这种词的表征方法,即我们该如何基于知网知识库进行分词、相关度计算、情感分析和命名实体识别等任务。当然概念层面上的计算和我们熟知的机器学习算法或深度学习方法有很大的不同。并且由于类似词在概念空间上要比原始词空间上距离近得多,所以在概念空间上处理自然语言任务要简单地多。一般来说,机器学习方法可以表示为输入空间到输出空间的一个映射,而基于知网的概念计算就相当于先将输入空间映射到一个概念空间,再从概念空间运用计算方法映射到输出空间。样本在概念空间内将服从一定规范形式,并且相关联的词在概念空间内拥有更近的距离。下面,我们将从分词、词的相关性和情感分析等任务讨论基于知网知识库的计算方法。

分词计算

机器在分词的时候,主要有两种情况,一种是组合型,即字和字之间是不是可以组合成一个词。第二个是交集型,比如说提高人民生活水平,机器可以分割为:提/高人/民生/活/水平,这几个词是连续存在的歧义。但是从一般的算法来说,这并不是问题,因为简单的切割次数最少化原则就已经解决了这个问题。但这种实际上是伪分词歧义,比较难处理的是我们该如何参照词表确定合理的分词。

但中文是一个字,它组成了词后才有意义,而英文的词组同样也需要组合起来才有意义。因此董强先生表明,中文英文都存在着同样的问题,重要的不是分而是合,即哪个字/词在什么情况下可以与另外一个字/词相结合。

码报:潜心30年,知网知识系统如何从概念层次上计算

在机器学习中,分词主要可以使用条件随机场(CRF)进行,但是在传统 CRF 中特征需要人工设定,所以我们需要进行大量繁杂的特征工程。不过近几年深度学习的发展给很多研究问题带来了全新的解决方案。在中文分词上,基于神经网络的方法,往往使用「字向量 + 双向 LSTM + CRF」模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量降到最低。这种分词技术通常分为 3 个处理层级,首先嵌入层会将离散的汉字用词向量的形式表征,随后特征层将使用前向和反向 LSTM 在考虑时序依赖关系的同时抽取有用的文本特征,最后的推断层将使用 CRF 基于前面的特征进行分词。其实我们可以看到,这个模型需要将复杂多变的字用词向量的形式表达出来,那么我们是否能使用知网知识库先表征词再投入计算?

在知网中计算语句的分词,首先汉字切分到单个字就可以结束了,剩下的就是字和字之间的合并的问题。董强先生说:「知网它本身是一个知识库,它对于中文来说就是一张词表,那我们首先就需要检索相邻词在词表中能不能匹配上,匹配后再看有没有歧义。我们一般会把所有带歧义的组合都保留。然后将这些组合放入一句话或者一个语境内进行计算,因为每一个词语在知识库里面都是有概念描述的,因此我们就要确定这个词语和另外一个词语在概念层面上可不可以有一种合理的语义搭配。如果是合理的话,这一分词就可以确定下来,如果不确定,就需要寻找下一个。如此整句话就迭代地进行了词切分。」总的来说,语知会将可能组合而成的词用义原树表达出来,然后放入句子中并计算句子其它元素与该概念的相关性而表达词语组合在语境中的合理性,系统将抽取最合理的切分方式作为输出。

相似度和相关性计算

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容