本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

时间:2017-02-18 17:16来源:香港现场开奖 作者:本港台直播 点击:
参与:赵华龙、王宇欣、吴攀 本文是 Adit Deshpande 的 Deep Learning Research Review 系列文章的第三篇,总结和解读了深度学习在自然语言处理领域的应用。在这里,机器之心随带推荐一篇之

参与:赵华龙、王宇欣、吴攀

本文是 Adit Deshpande 的 Deep Learning Research Review 系列文章的第三篇,总结和解读了深度学习自然语言处理领域的应用。在这里,机器之心随带推荐一篇之前发过的文章《》

自然语言处理介绍

介绍

自然语言处理(NLP)研究的问题是关于如何构建通过处理和理解语言来执行某些任务的系统。这些任务可包括

问答(像 Siri、Alexa、Cortana 所做的那些)

情感分析(决定是否某句话包含积极或消极的内涵)

图像到文字的映射(生成一幅输入图像的注释)

机器翻译(将一段文字翻译成另一种语言)

语音识别

词性标注

命名实体识别

传统的 NLP 方法涉及很多语言学领域自身的知识。要理解诸如音位和语素这样的术语是非常基本的要求,就好像他们的研究统统都是语言学问题一样。让我们来看看传统 NLP 是如何尝试理解下面的话的。

假设我们的目标是收集关于这个词的一些信息(表征其情感,找到它的定义等)。使用我们语言领域的知识,我们可以把这个词分成 3 部分。

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

我们知道前缀「un」表示反对或相反的想法,我们知道「ed」可以指定单词的时间段(过去时态)。通过识别词干「兴趣」的含义,我们可以很容易地推导出整个词的定义和情感。看起来很简单吧?然而,当考虑英语中所有不同的前缀和后缀时,需要非常熟练的语言学家来理解所有可能的组合和意义。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

深度学习如何很好地解决这些问题?

从最基础层面来说,深度学习即是表征学习(representation learning)。通过卷积神经网络(CNN),我们可以看到不同的过滤器(filter)组合可以用来将各种物体分类。这里,我们将采用一种相似的方式,通过大数据集来创建对各种词的表征。

本文概论

本文将以这样的方式来组织文章的内容结构:我们将首先浏览一下构建 NLP 深度网络的基本构建块,然后来谈一谈最近研究论文所能带来的一些应用。不知道我们为什么使用 RNN 或者为什么 LSTM 很有效?这些疑问都很正常,但希望你在读完下面的这些研究论文之后能更好地了解为什么深度学习技术能够如此显著地促进了 NLP 的发展。

词向量(Word Vectors)

由于深度学习爱用数学进行工作,我们将把每个词表示为一个 d 维向量。让我们使 d = 6。

[Image: https://quip.com/-/blob/cGAAAAubYyb/u9YfGL3mGnMUFhrXOfGArQ] 现在让我们考虑如何填这些值。我们想要以这样的方式填充值:向量以某种方式表示词及其语境、含义或语义。一种方法是创建共生矩阵(coocurence matrix)。假设我们有以下句子:

  

从这句话,我们要为每个特定的词都创建一个词向量。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

共生矩阵是包含了在语料库(或训练集)中每个词出现在所有其他词之后的计数数目的矩阵。让我们看看这个矩阵。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

从该矩阵中提取行可以让我们的词向量简单初始化。

  

wzatv:【j2开奖】深度 | 深度学习概览之自然语言处理:从基本概念到前沿研究

请注意,通过这个简单的矩阵,我们可以获得一些非常有用的见解(insight)。例如,请注意「love」和「like」这两个词都包含 1,用于名词(NLP 和狗)后的计数。它们与「I」的交集也是 1,因此表明这些词必须是动词。对于远比一个句子更大的数据集,你可以想象这种相似性将变得更加清楚,因为「like」,「love」和其他同义词将开始具有相似的单词向量,因为它们都在相似的上下文中使用。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容