很长时间当中,人工智能与计算机科学、语言学之间有一个交叉学科始终被市场热切关注,那就是NLP(natural language processing),即自然语言处理。 这项技术的基本内涵,是指人类与计算机之间用自然语言进行有效通信的各种理论和方法。说白了就是如何让机器听懂人类说什么,以及如何让机器说人类能听懂的话。这两个方面也被称为NLP的两个核心关键领域:自然语言理解和自然语言生成。 回想一下,我们可能会发现NLP对于推动人工智能产业发展有着举足轻重的作用。因为它可以直接作用于机器翻译、语音输入等领域。相比于人工智能和机器人领域那些“只闻其声不见其人”的算法和神经网络,翻译和语言输入法可是货真价实的商业应用。 所以作为这些应用领域的主角,NLP一直在人工智能产业化中扮演着重要角色。但有很多人认为,NLP在整个AI体系中是相对孤立的,应用范围也相对狭窄。 但随着学界一种新的跨界思维开始流行起来,这种情况仿佛有了改观:将流行的深度学习技术(deep learning)与NLP相结合,打造出更深度自然语言处理(DeepNLP)成为了火爆的AI概念。 而真正令人在意的是,这个概念背后指向的应用性近乎于是无限广泛的,甚至有人认为人类将史无前例地打开语言这个魔鬼迷宫,将人类的某些能力拉升到新的维度。 究竟有没有这么神当然不好说,但DeepNLP的潜在价值绝对不凡。 为了让大家更好理解DeepNLP的涵义与应用性,我们尝试尽可能抛弃掉所有函数和语言学公式,并且用一种比喻来理解这项技术的真实情况:挖矿。 假设DeepNLP是一座深埋在地下的富矿,那么想要得到它首先要翻越大块盐碱。而矿藏的最深处,可能就是魔鬼的居所。 从NLP到DeepNLP:人工智能不仅可以翻译、速记、问答 先来解释一下NLP与DeepNLP的不同之处。 自从上世界八十年代NLP概念被提出以来,经过了长时间的演进和迭代。其技术本身的变化非常显著。但其基本运作模式却是相同的。一般来说,NLP体系的工作对象都是人类语言。一段语言样本进入NLP系统之后,将经过系统的符号化处理,开奖,将人类语言改写成运算语言;然后通过运算能力进行模块化生成,根据不同目标进行语言处理;最终,生成的模块输出为结果,整个语言处理任务就完成了。 这样的语言处理体系,按照目的来区分一般有三种应用:一是语音文本转化为文字文本,也就是我们今天常用的语音输入;其二是不同语言之间的转化,也就是机器翻译;第三种是语言文本理解后给出相应回馈,也就是siri这样的聊天机器人。 NLP的作用,基本就是在这三种应用当中让语言处理更加自然、合理。而随着深度学习技术的不断发展,NLP似乎可以迎来一场全面的革命。 NLP长久以来存在的问题,就是人类的不同语言体系确实太复杂了,经典计算网络根本无法完全处理。尤其语义、语言情感、语言氛围以及歧义、多义等内容,更是难以被机器理解。 而目前火爆的深度学习技术,则可以用非监督式或半监督式的特征学习,来自主提取高效算法替代传统算法。换言之,深度学习中的某些技术或许可以让NLP自主理解人类语言中的具体特征和复杂语言材料。这就给NLP的革命打开了一线遐想。 事实也确实如此,随着卷积神经网络、递归神经网络、迁移学习等技术的成熟,NLP可以主动理解的算法越来越多。比如对关键词的归纳、对句子上下文关系的理解,以及通过训练结果去自主理解其他语料和语言情况。 总之,深度学习技术加上NLP,把人工智能理解人类语言推向了理论上的新高度。甚至有学者提出了DeepNLP这个新概念。加入深度学习的NLP体系,可以在表达适配度,可训练性,泛化性,模块化、可迁移性等领域上较比原有NLP具有强烈的优势。 而所谓DeepNLP的美梦成真,是从一些新工具投入使用开始的。 发现新矿层:词向量等思维模块带来的冲击 这一部分细说起来可能会有些枯燥生涩,但事实上这部分对于理解DeepNLP带来的商业可能是至关重要的。所以我们还是要简单聊一下。 话说自然语言处理的逻辑,是将人类语言转化为运算语言。但在传统计算模式下的语言转化,是将不同词汇转化为相互间完全没有联系的符号编码。 这种方式对于机器运算本身没什么问题。但对于让机器语言更好地贴近理解人类语言就会有很多障碍。比如带来的运算量非常复杂,一旦需要对语义、句法、语言回指这样的复杂问题进行计算,就会难以为继。 另一方面,这种转化模式之后,词、句、语法间是完全没有联系的。这也就难以让机器学习人类语言间的联系,产生自主理解的学习训练效果。 (责任编辑:本港台直播) |