主题模型:即在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。 生成对抗网络:GAN 由两个彼此竞争的深度神经网络——生成器和判别器组成的。生成模型可以被看作是一队伪造者,试图伪造货币,不被人发觉,然而辨别模型可被视作一队警察,努力监察假的货币。博弈中的竞争使得这两队不断的改善方法,直到无法从真实的物品中辨别出伪造的。 变分自编码器:VAE 是一类重要的生成模型,现在广泛地用于生成图像。与 GAN 不同的是,我们是知道图像的密度函数(PDF)的,而 GAN 并不知道图像的分布。 邓力老师随后探讨了如果没有输入、没有一个学习材料系统该怎样学习,所以说机器还得需要一些学习材料,而又不需要人类提供那些成本非常昂贵的输入输出映射。那么在这样一个无监督学习里,我们该怎样训练模型。 邓力老师随后表明,在这个世界上有充分的、多元的一些知识,我们可以把它整合到一个整体的知识体系中,然后将其提供给系统和机器。这是一个非常大胆的想法,怎么把世界上既有的多元化信息分类到各个知识领域是一个有效而困难的问题。 无监督学习分类器
语言模型能从分离的语料库中训练,这样就移除了成对数据(标注数据)的需求,也就不需要耗费大量人力进行标注。
邓力老师是这样做的,因为我们在这个实验里面使用的是语言模式的信息,既使是我们提供的序列作为输入给这个机器,输出还是不能给出一个明确的标签,它只能给出一个非常泛泛的人类语言的标签。所以我们用真实的语言作为机器学习的指导。虽然自然语言的数据可以是一个很困难的东西,但是我们可以单独拿出来使用,不把自然语言和任何的手写图象进行配对。为此我们就极大地降低了训练机器的成本。
上述问题可以形式化为以下最优化问题:
原始问题的成本函数即:
我们可以最优化这个目标函数,求出最优参数,然后就可以求出我们所需要的模型。所以邓力老师跟大家来分享了一下这个成本函数,我们可以看到刚才已经讲过了这个目标函数,最开始它是不好的,但是最后迭代以后它会越来越好。我们可以看到从网站里面它跟你的数据训练是不同的,所以这是很容易建造的,但是却很难优化。 该成本函数存在的巨大问题,因为即使是线性模型也高度非凸性,因此我们很难对其优化,也不可能下降到全局最优解。 SPDG 在邓力老师的演讲中,非常重要的就是采用 SPDG 在没有标注的情况下学习如何做预测。那么我们一起来看看邓力老师如何将前面我们形式化的原始问题转化为极小极大对偶问题,并采用随机梯度下降来求得最优参数。(注:以下参考自邓力等人今年发表的论文:An Unsupervised Learning Method Exploiting Sequential Output Statistics) 为了正确地将随机梯度下降应用到前面我们形式化问题所得到的损失函数,即最小化损失函数:
我们需要转换该损失函数以保证其随 t 的累和为对数损失。为此,我们首先需要引进凸共轭函数这一概念。给定一个凸函数 f(u),那么其凸共轭函数 f * (ν) 就定义为: 此外,也可以表示为: (责任编辑:本港台直播) |