在路线图中,由监督学习延伸出去的还有“层”(Layer)这个概念,层又分为:卷积层(CNN)、自回归层(Autoregressive layer)、全连接层(MLP),以及带有记忆的层(Layers with Memory),典型的就是长短时记忆(LSTM)模型。 再往下分(在图中应该是往上走),PixelCNN 看名字也知道是属于 CNN 的,PixelRNN 则是属于 RNN 的。而 RNN 循环神经网络(或者叫递归神经网络),是一种自回归的模型。 无监督学习→概率模型→显示密度模型 接下来,我们来看 Perez 关于无监督学习和强化学习的梳理。 首先是无监督学习,正如上文所说,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习(Meta-Learning)。 无监督学习分为概率模型(Probabilistic Model)和非概率模型(Non-Probabilistic Model)。稀疏编码、自编码器和 K-means 都属于非概率模型。
而在概率模型中衍生出了两条分支:显式密度模型(Explicitly Density Model)和隐性密度模型(Implicit Density Model),现在大火的生成对抗网络(GAN)就属于后者。 显式密度模型又分为易解模型(Tractable Model)和难解模型(Non-Tractable Model)。NADE、PixelRNN 都属于可解模型。而玻尔兹曼机(BMV)、变分自编码器(VAE)则属于难解模型。 强化学习→策略优化 & 动态编程 最后来看强化学习(Reinforcement Learning),也即通过试错、单纯地通过奖励或者惩罚完成的学习范式。DeepMind 创新性地将强化学习和深度学习融合起来,创造出的 AlphaGio 惊艳了世界,DeepMind 后来相继研发出的智能体也都在许多困难领域实现人类级别的表现。 在 Perez 的路线图中,强化学习有两大分支,策略优化(Policy Optimization)和动态编程(Dynamic Programming)。 而策略优化又分为无导数优化方法(Derivative Free Optimization)和策略梯度方法(Policy Gradients)。 动态编程则衍生出值迭代(Value Iteration),再到 Q-Learning。3 年前,DeepMind 推出了第一个获得大范围成功的深度增强学习算法,内含的核心概念是使用深度神经网络代表 Q-Nerwork,并且训练这一 Q-Nework,让其预测总体的奖励。最重要的是,DeepMind 当时解决稳定性的问题,为 50 个不同的 Atari 游戏分别训练了不同的、不含任何先验知识的 DQN 智能体,结果 DQN 在近一半的游戏中都达到了人类的水平。这也成了 DeepMind 2015 年发表在 Nature 的论文。 动态编程的另一条分支是策略迭代(Policy Iteration)。 值得注意,策略梯度和策略迭代最后都能推导出 Actor Critic 方法。
进击的深度学习 深度学习还在不断发展,不断有新的模型和架构产生。就像最开始说的,这份路线图只是草图,需要更多的人来完善——不仅仅是图,还有深度学习本身。 Perez 原文:https://medium.com/intuitionmachine/the-deep-learning-roadmap-f0b4cac7009a
3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。 访问以下链接,回顾大会盛况: 阿里云栖社区: (责任编辑:本港台直播) |