本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:潜心30年,知网知识系统如何从概念层次上计算

时间:2017-08-06 00:13来源:本港台直播 作者:www.wzatv.cc 点击:
专访 | 潜心30年,知网知识系统如何从概念层次上计算自然语言 2017-08-05 11:20 来源:机器之心 操作系统/技术 原标题:专访 | 潜心30年,知网知识系统如何从概念层次上计算自然语言 机

专访 | 潜心30年知网知识系统如何概念层次计算自然语言

2017-08-05 11:20 来源:机器之心 操作系统 /技术

原标题:专访 | 潜心30年知网知识系统如何概念层次计算自然语言

机器之心原创

作者:思源

近日,机器之心采访了语知科技的首席科学家董强先生,董强向我们详细介绍了一种基于 Common-sense 知识库体系从概念层次进行自然语言处理的技术。语知自然语言理解技术平台正是基于知网语言知识库独有的语义分析技术,从概念层次上而不是从词的层面上进行自然语言处理,因此系统的计算复杂度会大大降低,也就更容易将系统离线部署到移动端或边缘设备中。深耕 30 多年 NLU 的知网(HowNet)如今正以语知科技创业公司的形象走进公众的视野。

码报:潜心30年,知网知识系统如何从概念层次上计算

董强先生

概念计算的潜力

深度学习通过卷积神经网络(CNN)变革了计算机视觉,通过循环神经网络(RNN)引爆了自然语言处理。我们已经看到大量的研究成果和应用案例,但黑箱的深度学习真的能颠覆自然语言理解吗?令机器理解自然语言一直是 NLP 的目标,但即使如今谷歌神经算法机器翻译使用强大的编器-解器结构、注意力机制和双向 LSTM 网络,但它真的理解词语属性和结构吗?有读者可能认为即使不理解也没关系,我们只需要系统能得出结果就行。是的,深度学习系统能得出十分优秀的结果,但这种在词层面而不是概念层面的计算需要大量标注数据并在多 GPU 和多机器上分布式地训练,因此我们训练出来的模型才有足够的复杂度来适应于巨量且复杂的词和句子。那么如果系统理解词的属性和概念呢?系统是不是应该就可以从概念的层面上理解语句及其背景知识,并且由于一个概念对应于多个词的表达,因此概念上的计算复杂度会不会大大降低?从这个角度来说,语知科技基于概念的计算确实能帮助深度学习弥补不足,让机器学习达到更好的效果。

数据问题

深度学习是一种监督学习,j2直播,它需要大量的标注数据集,而基于知网语言知识库的计算在完成主体知识网络的建设后,主体知识网络只需要少量的标注就可以扩展到新的领域内。因为深度学习将意义转换成向量和几何空间,然后逐渐学习复杂的几何变换,把一个空间与另一个空间建立映射关系。所以我们需要足够高维的空间来获取原始数据中的所有关系,因此大量的标注数据也在所难免。但是对于知网语言知识库来说,知识是通用的知识,我们只需要标注一次就可以在各种任务和场景下调用这种知识,而新的词汇只需要按照知识网络的框架标注一次就可以加入到知识库中并反复利用。所以说如何利用知网知识系统(下文将详细解释)将有助于深度学习减少对标注数据集的依赖。

泛化问题

深度学习可以看作为一种局部泛化,因为如果新的输入与模型训练时遇到的数据有些不同,深度网络执行的从输入到输出的映射就会遇到麻烦。因为当我们使用深度学习模型完成某个任务时,我们需要使用该任务巨量的样本进行训练,训练出来的模型基本上也只能应用于这类任务。通过叠加更多层、使用更多训练数据来提升当前的深度学习技术并不能改善泛化性,因为模型能够表示的范围仍然有些局限。反观语知基于知网语言知识库的计算,它拥有十分强大的泛化性能。因为这种概念计算是基于词的义原和关系进行(下文将详细解释),所以我们的计算是带有属性和背景知识的,它能改善深度学习的泛化问题。目前语知科技用于分词的系统换一种计算方式甚至可以直接进行相似度计算或情感分析等。

人类可以使用非常少的数据甚至不使用数据来适应全新的、之前从未体验过的情形,抽象化和推理可以说是人类认知的定义性特征。深度学习很难做到这种程度的泛化,因为它是一种输入到输出的映射。而基于概念的计算却更容易抽象化为属性并推理各事物间的关系,这种泛化才是我们应该注重的。

鲁棒性问题

深度学习某种程度上有良好的鲁棒性,例如神经机器翻译不会因为少量的扰动而大幅度变动。但对抗性样本却能欺骗系统,因为深度学习模型不理解输入样本的属性和关系等知识。深度学习模型只是学会把数据映射到人类对该特定样本集概念的几何变换,但是该映射只是对我们头脑中原始模型简单化的表达,因此当模型遇到没有编码的表达时,鲁棒性将会变得较差。同样基于知网知识库的概念性计算也有良好的鲁棒性,因为该方法描述每个概念的树是确定的,只有概念变动,所需要的树形描述才会变动,所以随机扰动并不会引起模型性能的降低,同时也并不会出现对抗性样本那样的缺陷。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容