而有一些新技术的出现,正在改变这种现状。比如一种叫做“词向量”的思维模块,这种技术把人类语言转化为机器语言时,对每一个词进行了有联系的界定。即将词汇处理成向量,并且向量间的相对相似度和语义相似度是相关的。 比如说人,会关联着男人、女人、老人、成年人等词。这些词相互有联系,并且可以被机器理解。这也就将人类语言体系重新展现在了机器面前,给了机器学习全新的理解方式。 词向量只是DeepNLP技术中的一种解决方式,并且各种词向量也在不断进化当中。这些让机器重新理解人类语言的技术,可以被视作全新的探测器。有了这些工具,语言应用的富矿就暴露在了人类面前。 潘神的迷宫:DeepNLP的技术盐碱地 当然了,就像深度学习在众多领域的应用一样。DeepNLP达成应用也绝非朝夕之功,在开始近乎癫狂的应用想象之前,我们还是要泼一盆冷水。 虽然帮助机器深度理解人类语言的工具和技术越来越多,但语言这个神奇的王国依然保留着大块处女地。目前的精神网络和深度学习算法,还有大量的语料和语言问题无法处理。这就像我们知道某处深山中有大量金矿,但勘探队与其之间依旧隔着大片的盐碱地和坚硬岩石。 比如说语言歧义性问题,就是目前的词向量、词嵌入技术的“噩梦”。一个词可以有很多种意思,是人类不同语言的“通病”。而人类理解这些多义词基本依靠对语境和言语情感的理解。但机器学习对人类语言进行重新编码的时候,却无可避免地将同义词进行错误编码。甚至从而产生对整体语义的歧义理解。 再比如不同语种的问题。字母文字和表意文字之间的逻辑、结构和语境是完全不同的,甚至近似语言之间的语法结构也可以截然不同。深度学习体系追随的是语法内部的逻辑体系,而追寻语言本身的通路,在跨语种时可能出现巨大的障碍。 还有一个问题,是DeepNLP究竟如何训练。语言的复杂性,让复杂处理后的语言结果很难被判定。一种判定结果也很难成为其他语言处理结果的指标。因此训练样本的缺少适配性,让弱监督与无监督的NLP非常困难。 当然了,问题该有是有,但并不妨碍我们看到DeepNLP的宏大价值。语言这令人着迷的东西,如果真正为人工智能所掌握,带来的效果近乎没有尽头。 越过山岩之后的富矿:DeepNLP的应用甜梦 DeepNLP的应用价值可以非常复杂,如果算上与其他智能体系结合的应用场景,那近乎是个无穷数。但这里可以基本推测几个DeepNLP应用场景,相信大家就会明白为什么将之称为“富矿”。 一、复杂语言目的提炼与反向生成:通过循环神经网络与卷积神经网络,NLP提取复杂语言材料的核心概念将成为可能。这个能力的作用非常多,比如全面接管客户服务。而复杂语言提炼还可以重新定义模糊搜索和电商搜索。人只需要描述自己对信息或者商品的需求,NLP就可以自主提炼并进行精准定位。 而这个能力的反向生成也十分重要,深度学习体系可以帮助NLP根据人类需求自主生成文字语言材料,就预示着根据某个需求进行文本与语音创作成为可能。通过人类语言训练反向影响AI写作,也是一个十分有意思的破局思路。 二、基于语言的逻辑推理与情感判断:通过对人类语言环境中的复杂关系进行迁移学习,可以达成另外一些有意思的应用可能。比如让机器学习到人类语言中的逻辑和情感。先不提是否赋予机器这些东西,至少这将有机会让机器从人类的语言中预测结果,达成机器推理甚至情感判断。 从听懂你说话的机器人,变成能够预测你目的、读懂你的情绪的机器人,显然是一场巨大的商机。 三、文本关系的提取与分类:DeepNLP的另一个主攻方向,是对文本关系的理解。从语言环境、语位素到语言使用习惯和语言情感,人类的语言其实根植于无数文本关系之中。如果不能理解这些关系,那么AI就永远是只能进行简单交互的机器。 而通过深度学习技术进行自然语言处理,却可能让机器理解这些关系。于是复杂的文本翻译将成为可能,整本书的瞬间翻译似乎也不是难事。而方言、发声问题下的人机语音交互可能达成。当然了,这都仅仅是这个技术达成所带来应用的一小部分。 (责任编辑:本港台直播) |