本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】深度 | 一篇文章带你进入无监督学习:从基本概念到四种实现模型(附论文)

时间:2016-10-30 18:45来源:天下彩论坛 作者:j2开奖直播 点击:
参与:李亚洲、武竞 这是今年 6 月份普渡大学副教授 Eugenio Culurciello 写的一篇关于无监督学习的概述性文章。除了基本概念,本文还介绍了无监督学习的四种实现模型:聚类学习、自

参与:李亚洲、武竞

这是今年 6 月份普渡大学副教授 Eugenio Culurciello 写的一篇关于无监督学习的概述性文章。除了基本概念,本文还介绍了无监督学习种实现模型:聚类学习、自动编器、生成模型、PredNet。前几日,Culurciello 教授根据最近无监督学习的发展对此篇文章进行了更新与调整,机器之心对此进行了编译。文中提到的论文可点击「阅读原文」下载。

注:刘帝伟(译者)、刘翔宇(审校)两位老师对 6 月份的版本进行了编译并发布到了 CSDN 极客头条上,此篇编译文章借用了两位老师之前的翻译(有部分调整),如有不允,请联系机器之心,谢谢!

  无监督学习可谓是深度学习的圣杯,其目标是建立可兼容小数据集进行训练的通用系统,即便是很少的数据。

如今深度学习模型往往在大型监督型数据集上训练。所谓监督型数据集,即每条数据都有一个对应的标签。比如流行的 ImageNet 数据集,有一百万张人为标记的图像。一共有 1000 个类,每个类有 1000 张图像。创建这样的数据集需要花费大量的精力,同时也需要很多的时间。现在想象创建一个有 1M 个类的数据集。试想一下,对有 100M 数据帧的视频数据集的每一帧进行分类。该任务量简直不可估量。

现在,回想一下你在小时候是如何进行学习的。是的,那时候会有人指导你,你的父母会告诉你这是一个「猫」,但是他们不会在你余生的每一分每一秒都告诉你这是一只「猫」!如今的监督学习也是这样:我一次一次地告诉你,什么是「猫」,也许高达 100 万次。然后你的深度学习模型就学会了。

理想情况下,我们希望有一个模型,它的表现与我们的大脑非常相似。只需少量的标签便可理解这个多类的世界。这里所说的类,主要是指对象类、动作类、环境类、对象组成类等等。

基本概念

无监督学习研究的主要目标是预训练一个模型(称作「识别」或「编」)网络,供其他任务使用。编码特征通常能够用到分类任务中:例如在 ImageNet 上训练会表现出很好的结果,这与监督模型非常接近。

迄今为止,监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务,监督工作是可以减少的。在这方面,希望达到的目标是无监督训练可以提供更一般的特征,用于学习并实现其它任务。

自动编码器(auto-encoders)

该理论主要源于 1996 年 Bruno Olshausen 和 David Field(参见论文:Sparse Coding with an Overcomplete Basis Set:A Strategy Employed by V1)发表的文章。此文表明,编码理论可应用于视觉皮层感受野。他们发现,我们大脑的主要视觉皮层(V1)使用稀疏原理来创建可以用来重建输入图像的最小基函数子集。

YannLeCun 团队在该领域也做了很多工作。在余下的文章中,你将看到一个很好的例子来解释类似 V1 的稀疏滤波器是如何学习的。

栈式自动编码器也会被用到,以贪婪式的方式逐层重复训练。

自动编码器方法也被称为「直接映射」方法。

自编码器/稀疏编码/堆栈自编码器的优点与缺点

优点:

简单技术:重建输入

可堆栈多层

直觉型,且基于神经科学研究

缺点:

贪婪训练每一层

没有全局优化

比不上监督学习的表现

层一多会失效

输入的重建可能不是学习通用表征的理想度量(metric)

聚类学习(Clustering Learning)

一种技术是使用 K-均值聚类来学习多层的 filters。

我们团队将这种技术命名为:聚类学习(参见论文:Clustering Learning for Robotic Vision)、聚类联结(参见论文:An Analysis of the Connections Between Layers of Deep Neural Networks)和卷积聚类(参见论文:Convolutional Clustering for Unsupervised Learning),最近它们在 STL-10 无监督数据集上取得了非常好的结果。

我们在此领域的研究独立于 Adam Coates 和吴恩达(参见论文:Learning Feature Representations with K-means)的研究。

众所周知,受限玻尔兹曼机(RBMs)、深度玻尔兹曼机(DBMs)、深度信念网络(DBNs)难以训练,因为解决其配分函数(partition function)的数值难题。因此它们还未被普遍用来解决问题。

聚类学习的优缺点

优点:

简单技术:聚类相似输出

可被多层堆栈

直觉型,且基于神经科学研究

缺点:

贪婪训练每一层

没有全局优化

在一些情况下,比不上监督学习的表现

层数增加时会失效,收益递减

生成模型(generative models)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容