图1. 基于最优传输映射(Optimal Mass Transportation Map)的保面积映射(area-preserving mapping)。 今天老顾讲解了,详细给出了W-GAN中关键概念的几何理解,包括概率分布(probability distribution)、最优传输映射(Optimal Mass Transportation Map)、Brenier势能、Wasserstein距离等等。理论上,深度学习领域中常用的概率生成模型(Generataive Model)都可以用最优传输理论来分析,随机变量生成器都可以用最优传输映射来构造。相比于传统神秘莫测的深度神经网络(DNN),最优传输映射是完全透明的,用最优传输理论来探索深度神经网络,可以帮助我们更好的理解深度学习的本质。今天,很多研究生和几位教授听了老顾的讲座,随后和老顾展开了热烈的讨论,并对一些基本问题展开了深入的交流。下面,老顾开始撰写下一次的课程讲义。 深度学习的方法强劲有力,几乎横扫视觉的所有领域,很多人将其归功于神经网络的万有逼近能力(universal approximation property):给定一个连续函数或者映射,理论上可以用(一个包含足够多神经元的隐层)多层前馈网络逼近到任意精度。对此,老顾提出另外的观点:有些情况下,神经网络逼近的不是函数或映射,而是概率分布;更为重要的,逼近概率分布比逼近映射要容易得多。更为精密的说法如下:在理想情况下,即逼近误差为零的情形,如果神经网络逼近一个映射,那么解空间只包含一个映射;如果神经网络逼近一个概率分布,那么解空间包含无穷个映射,这些映射的差别构成一个无穷维李群。 我们这一讲就是要证明这个观点,所用的工具是(包括无穷维)微分几何。 二十年前,老顾在哈佛学习的时候,Mumford教授、师兄朱松纯就已经系统性地将统计引入视觉,他们提出了用图像空间中的概率分布来表示视觉概念的纲领。今天,一些深度学习的模型(例如GAN)所遵循的原则和他们的纲领是一脉相承的。这也正是老顾更为看好逼近概率分布,而非逼近映射的原因之一。 概率生成模型 我们先看最简单的(伪)随机数生成器。我们选取适当的整数,计算序列 那么给出了随机变量,符合单位区间的均匀分布(uniform distribution)。由均匀分布,我们可以生成任意的概率分布。例如,我们可以构造一个映射,将单位正方形上的均匀分布映射成平面上的高斯分布: 。
图2. 怪兽的最优传输映射。 在上一讲中,我们给出了最优传输理论的几何解释。给定一个区域,其上定义着两个概率测度和,则唯一存在一个最优传输映射,将概率分布映射成概率分布,亦即对于一切可测集合, , 记为,并且极小化传输代价 。 这个最优传输映射是某个凸函数的梯度映射,这个凸函数被称为是Brenier势能函数,满足蒙日-安培方程。如图2所示,我们将怪兽曲面(第一帧和第四帧)保角地映射到平面圆盘上面(第二帧),保角映射将曲面的面积元映射到平面上,诱导了平面圆盘上的一个概率测度。平面圆盘上也有均匀概率分布(第三帧),从第二帧到第三帧的映射为最优传输映射。图1和图3显示了基于最优传输映射的曲面保面积参数化(Surface Area-preserving Parameterization)。 图3. 基于最优传输映射(Optimal Mass Transportation Map)的保面积映射(area-preserving mapping)。 在Wasserstein生成对抗网络中(Generative Adversarial Network), 生成器(generator)可以被抽象为一个非线性映射。将全空间映到自身,同时将均匀概率分布映射成概率分布,,同时尽量极小化概率分布和真实数据概率分布之间的Wasserstein距离。那么,我们的问题是: 满足保持测度条件的映射是否唯一?如果不唯一,又有多少? 对于这个问题的彻底解答需要用到映射极分解理论(Mapping Polar Decomposition)。 映射极分解理论 (责任编辑:本港台直播) |