朱:好,就回到1975-1980年这个时间段。我们今天的主题是想初步探讨一下计算机视觉的起源。我们这个领域也没有一个统一的教科书来谈这个事情。我认为视觉的起源,可以追溯到三个人,David Marr, King-Sun Fu和Ulf Grenander。这三个人代表三个完全不同的方面,为计算机视觉这个领域奠定了基础。 杨:好, 我们逐个来介绍吧。
第三节:视觉的开创者之一:David Marr 的学术思想 朱: David Marr 【1945-1980】,中文音译为马尔, 他奠定了Computational Vision计算视觉这个领域,这其实包含两个领域: 一个是计算机视觉(Computer Vision),一个是计算神经学(Computational Neuroscience)。他的工作对认知科学(Cognitive Science)也产生了很深远的影响。 我们计算机视觉CV,第一届国际会议ICCV始于1987年,就以David Marr的名字来命名最佳论文奖,而且一直到2007年之前的20年间,是CV唯一的奖项和最高的荣誉,两年一次。认知科学年会 (CogSci)也有一个 Marr Prize给最佳的学生论文。这三个领域在80-90年代走得很近, 最近十多年交叉越来越少了。就是说,原来都是亲戚,表兄弟,现在很少有人在之间走动了。 Marr1972年从剑桥大学毕业,博士论文是从理论的角度研究大脑功能,具体来说,是研究的小脑,主管运动的Cerebellum。1973年受MIT 人工智能实验室主任Minsky的邀请,开始是做访问学者(博士后)。1977年转为教职,可是1978年冬诊断得了急性白血病。1980年转为正教授不久就去世了, 时年35岁。他在得知来日无多后就赶紧整理了一本书,就叫 “Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”, 《视觉:从计算的视角研究人的视觉信息表达与处理》。他去世后由学生和同事修订,1982年出版。 杨:“Vision”2010年再版了,再版了以后在亚马逊仍然是卖得很好。 朱:它是个经典的东西。我是1989年冬天本科三年级从中科大认知科学实验室的老师那里读到这本书的中文译本。因为缺乏背景知识,我当时基本读不懂。因为是中文,每句话都明白,但是一段话就不知道是什么意思了。在过去的20多年中, 我每隔1-2年都会再翻一翻这本书。后来我和同事花了大约8年时间,将他的一些思路转化成数理模型,比如primal sketch。 杨:这个人生故事是可以拍电影的。 朱:的确。 很多年前我与他的大弟子Shimon Ullman饭桌上谈到这段历史,他说当时大家到处找药,就是救不过来。当年这是一个30多岁正值科学顶峰的、交叉学科的领军人物。顺便说一句, 当年中日友好,1984播放日本电视剧《血疑》, 那是万人空巷, 感人至深。里面的大岛幸子(山口百惠饰)得的就是同样的病。 可惜, 目前计算机视觉这个领域,你如果去问学生,他们很多人都没听说过David Marr。“喔,想起来了,好像有个Marr奖吧。”可是你去问认知科学、神经科学的人,他们基本上对Marr非常清楚。这也是我所担心的:计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习的冲击。 我这里顺便说一下Marr对我的另一个间接的影响。他1973年来到MIT, 就租住在JayantShah的房子里,Shah 与Minsky很熟,他当时是研究代数几何(Algebraic geometry)的。而我导师Mumford也是研究代数几何的,并获得1974年的菲尔兹奖。他们两人很熟,后来在Shah的影响下,Mumford转入计算机视觉, 他们从提取物体边缘开始 (boundary detection),也就是产生了著名的 Mumford-Shah 模型,搞图像处理的应用数学人员基本都是从这个模型开始做。这是后话。关于这段历史,我们以后可以展开谈。 杨:好, 那么 Marr的学术贡献是什么呢? 朱:在我看来,David Marr对我们这个学科最主要的贡献有三条,从而基本上可以说定义了这个学科的格局。 第一条,在60年代开始之初,已经有很多人研究视觉神经生理学、心理学问题,也有人做一些边缘检测的工作。但关于视觉到底要解决哪些问题、是怎么实现的,大家莫衷一是,谈不清楚,David Marr的第一个贡献就是分出了三个层次。 (责任编辑:本港台直播) |