【j2开奖】深度 | 迁移学习全面概述：从基本概念到相关研究(6)_本港台直播_J2开奖直播

现成的卷积神经网络特征在视觉任务上有着无出其右的结果，但是问题在于，使用其它的数据，在其它领域（例如语言）能否复制这种成功？目前，对自然语言处理而言没有能够实现与图像领域一样令人惊叹结果的现成特征。为什么呢？这样的特征是否存在呢？如果不存在，那为什么视觉比语言更有利于这种形式的迁移呢？

诸如词性标注或分块这类低级别任务的输出就可以被比作现成的特征，但是在没有语法学的帮助下，不能采集到更细粒度的特征。正如我们看到的，可概括的现成特征似乎存在似乎存在于众多任务中原型任务中。在视觉中，物体识别就占据了这样的地位。在语言中，最接近的类似物可能是语言建模：为了预测给定词汇序列中的下一个单词或者句子，模型需要处理语言是如何构造的知识，需要理解那些单词很可能是相关的，那些单词很可能是彼此跟随出现的，需要对长期依赖关系进行建模，等等。

尽管最先进的语言模型越来越接近人类的水平 [15]，但是它们的功能使用是有限的。同时语言建模方面的进步已经为其他任务也带来了正面的结果：用语言模型的目标函数对一个模型进行预训练能够提升性能 [16]。此外，在一个大规模的无标签的语料库上用一个近似的语言模型目标函数进行预训练的单词嵌入已经变得普遍 [17]。虽然它们不如视觉中的现成特征那样有效，但仍然能够带来相当大的收益 [18]，并且它们可以被看做是从大规模的无标签的语料库向通用域知识的一种简单形式的迁移。

尽管自然语言处理领域的通用代理任务（general proxy）在当前似乎是无法企及的，但是辅助任务可以采用局部代理的形式。不管是通过多任务目标 [19] 还是综合任务目标 [20,21]，它们都可以被用来为模型增加更多的相关知识。

使用预训练特征是目前做迁移学习的最直接、最常用的方式。然而，到目前为止它并不是唯一的一种。

学习域不变的表征

在实际中，预训练特征通常被用在我们想适应的新任务的场景适应中 3。对其他场景而言，另一个由深度学习实现知识迁移的方式是学习基于域而不会改变的表征。这个方法在概念上和我们思考过的使用预训练的卷积神经网络特征非常相似：两者都只编码关于域的一般知识。然而，给非视觉任务创建基于特定域的不变表征要比为所有任务生成有用的表征要更加经济，更加可行。ImageNet 已经花费了多年、数千个小时来创建，然而为了创建域不变的表征，我们通常只需要每个域中的无标签数据。这种表征通常用大量的去噪自动解码器学习得到，而且已经在自然语言处理中取得了和视觉中一样的成功 [22,23]。

让表征更加相似

为了提高学到的表征从源域到目标域的可迁移性，我们希望两个域之间的表征尽可能相似，这样一来，我们就不用考虑可能阻碍迁移的特定域的特征，只需要考虑域之间的共同点。

与其仅仅让我们的自动解码器学到一些表征，不如积极地激励以让两个域中的表征和彼此变得更加相似。我们可以像预处理步骤一样把这个直接应用在我们的数据表证过程中 [25,26]，然后把新的表征用来训练。我们也可以促使我们的模型中的表征变得更加相似 [27,28]。

混淆域

另一个最近变得流行的、用来确保两个域的表征之间相似性的方式就是在现有的模型上增加一个目标函数来鼓励两个域的混淆 [29,30]。这个域混淆的损失函数就是常规的分类损失函数，模型尝试预测输入样例的类别。然而，又和常规的损失函数有所不同，如图 17 所示，从损失函数到网络的剩余部分的流动是反向的。

【j2开奖】深度 | 迁移学习全面概述：从基本概念到相关研究

图 17:用一个梯度反向层（gradient reversal layer）来混淆域。

梯度反向层会导致模型最大化误差，而不是学着去最小化域分类的损失函数的误差。在实际中，这意味着该模型会学习那些允许最小化原目标函数的表征，同时不允许区分两个域，这样有利于知识迁移。如图 18 所示，尽管仅仅使用常规的目标函数训练的模型可以基于它学到的表征清晰地区分两种域，但是用域方法增强的目标函数训练得到的模型却不能做到这一点。

【j2开奖】深度 | 迁移学习全面概述：从基本概念到相关研究

图 18：常规模型和域混淆模型的域分类得分比较 (Tzeng et al, 2015)

相关的研究领域

(责任编辑：本港台直播)