撰文 顾险峰(纽约州立大学石溪分校计算机系终身教授,清华大学丘成桐数学科学中心访问教授) 通常情况下,对于人类经过生物进化而习得的先天能力,机器学习可以胜任或者超过人类;对于人类经过科学积累而建立的抽象理论体系,机器学习目前依然无法和人类匹敌。三维人脸识别和三维人脸曲面配准这两个计算机视觉领域的经典问题,就给出了这样的例子。 人脸识别问题是给定一张人脸曲面,判定此人的身份;三维人脸曲面配准问题是给定两张人脸曲面,在人脸间找出点点对应关系,也就是求出它们之间的一个光滑双射(微分同胚)。三维人脸曲面配准的技术更为精细,它要求给出逐点对应,特征点对齐,全局某种形状畸变最小,因而既考虑局部信息,又牵扯整体几何。相对于基于图像视频的人脸识别,三维人脸识别对于光照条件的变化、不同表情的变换、化妆方式的变化、头部姿态的变化更加鲁棒,识别性能有所提升。三维人脸识别可以用监督学习达到比人类更为精准的地步。但是,对于三维人脸曲面配准问题,目前机器学习的方法无法直接奏效。首先,人类对于两张人脸曲面间的特征点和它们之间的对应关系,具有良好的直觉,可以毫不费力地标注出来;但是对于曲面间的映射,或者稠密点之间的对应关系,并没有明确的直觉,手工标注非常困难。因此,数据准备工作几乎无法实现。相反地,微分几何方法为曲面间的配准问题提供了强有力的模型,特别是菲尔兹奖得主、代数几何泰斗、计算机视觉大师芒福德(David Mumford)早期的研究领域——模空间——非常适用于这一问题的研究。 芒福德当年在哈佛上本科的时候,atv直播,在扎里斯基(Zaraski)的代数几何课上,产生了奇思妙想,最终催生了他得菲尔兹奖的工作。但这个想法不太容易解释,即便是初浅地描述也非常抽象。给定一张人脸曲面,我们通常只考虑皮肤构成的部分,去除眼睛和嘴的内部,同时将解剖意义下的特征点(例如眼角、嘴角、鼻尖)标注出来。因此人脸曲面实际上是带边界和特征点的拓扑复杂的曲面。给定两张这样的曲面,给定边界之间和特征点之间的对应关系,则我们所求的映射应该满足这些预定的对应关系。数学上,这意味着我们固定了曲面间映射的同伦类。固定一张拓扑曲面,考虑曲面上所有的黎曼度量。两个度量,被称为是共形等价的,如果存在一个保角的微分同胚,数学上这意味着存在一个标量函数:,使得微分同胚诱导的拉回度量和初始度量之间满足等式。图1给出了人脸曲面到平面圆盘之间的一个保角变换,保角变换亦被称为是共形变换。两个度量彼此等价,被记为,度量的共形等价类被记为。那么,曲面上所有黎曼度量的共形等价类构成的空间被称为是曲面的模空间(Moduli Space)。 图1. 曲面间的保角映射:三维曲面上任意画两条相交曲线,映到平面上后,平面曲线的交角等于原来三维曲面上曲线的交角。
图2. 人脸表情变换不是保角变换。 一般情况下,人脸表情变化会带来黎曼度量的变化,这种变化不是保角变换。图2给出了一个实例。我们将带边界的人脸曲面保角地映到平面的多孔环带上,多孔环带的内圆半径和圆心的构型是曲面的共形不变量。两张曲面的共形不变量不同,因此不存在共形变换。因此,这两张脸在模空间中代表不同的点。模空间的定义具有两级抽象,首先将黎曼度量分成共形等价类,这是一级抽象;然后,所有的共形等价类构成了模空间,这是第二级抽象。直观而言,模空间涵盖了所有可能的形状,其本身是带有奇异点的黎曼流形,存在黎曼度量,模空间中任意两点之间可以定义距离,也可以定义测地线。换言之,任意两张带度量的人脸曲面可以被视作是模空间中的两个点,可以用模空间的度量测量它们的相似程度;也可以计算它们之间在模空间内的测地线,就是它们之间某种微分同胚,使得角度畸变最小。 图3. 带有特征点的两张人脸 图4. 带有特征点的两张人脸之间,角度畸变最小的微分同胚,也可被视作是模空间中的测地线 (责任编辑:本港台直播) |