人的大脑皮层的活动,大约70%是在处理视觉相关信息。视觉就相当于人脑的大门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速, 其它感觉是两旁的人行道。如果不能处理视觉信息的话,整个人工智能系统是个空架子,只能做符号推理,比如下棋、定理证明,没法进入现实世界。所以你刚才问到的人工智能和计算机视觉的关系,视觉就相当于说芝麻开门。大门就在这里面,这个门打不开,就没法研究真实世界的人工智能。 到80年代,人工智能,连带机器人研究就跌入了低谷。那时候,很多实验室都改名字了,j2直播,因为拿不到经费了。客观来说,80年代,一个微型计算机的内存只有640K字节,还不到一兆(1MB一百万字节;我们现在一张图像,随便就是几个兆的大小),根本无法读入一张图像,还谈什么理解呢?等到我做博士论文的时候(1992-1996年),我导师把当时哈佛机器人实验室最好的SUN工作站给我用,也就是32兆字节。我们实验室花了25万美元构建了一个图像采集系统,因为当时没有数字照相机——可以这么说,一直到90年代中期,我们基本上不具备研究视觉这个问题的硬件条件和数据基础。只能用一些特征点的对应关系做射影几何,用一些线条做形状分析。因为图像做不了,所以80年代计算机视觉的研究,很大部分是做几何。 杨:90年代后,就是数字照相机大量生产了。 朱:在90年代的末期,发生了一个叫做感知器的革命,带动了大数据和机器学习的蓬勃发展。 杨:那机器学习与计算机视觉的关系呢? 朱:计算机视觉是一个domain, 它有很多问题要研究,就像物理学。而机器学习基本是一个方法和工具,j2直播,就像数学和统计学。这个名词的兴起应该还是最近的事情,在我看来,是来自于两股人马。 一是80年代人工智能走入低谷后,迎来了人工神经网络的一个高潮, 所谓的从符号主义到连接主义的过渡。在中国80年代与气功、人体科学一起走红,但这基本是昙花一现。到了90年代初退潮之后就开始搞 NIPS这个会议,引入统计的方法来做。二是做模式识别的一些工程人员EECS背景的。 按道理来说,这个领域应该叫做统计学习 (Statistical Learning),因为它的方法都是由概率统计领域拿来的。这些人中的领军人物很有商业头脑,把统计和物理的数理模型,改名叫做机器,比如**模型(model)就叫**机(machine),把一些层次模型(hierarchical model)说成是“网”(net)。这样,搞出了几个“机”和“网”之后,这个领域就有了地盘。另一方面,我那些做统计的同事们也都老实、图个清静,不与他们去争论,也大多无力去争。当然,统计学领域也有不少人参与了机器学习的浪潮。简单说,机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型,是由做计算机的人抢占了统计人的理论和方法,然后应用到视觉、语音语言等 domains。 我在计算机和统计两个系当教授,看得一清二楚。这个问题我以后可以专门讨论。 这个机器学习的群体在2000年之后,加上大量数据的到来,很快就成长了,商业上取得很大的成功。机器学习和计算机视觉大概有百分之六七十是重合的。顺便说一句,2019年我们两个领域会在一起在洛杉矶开CVPR 和 ICML年会,我是CVPR19的大会主席。因为学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。 杨:谢谢你讲述人工智能、计算机视觉和机器学习的关系。下面我们回到本次访谈的主题。刚才说了这个感知器革命是90年代以后,出了很多的数据要处理了。那为什么马尔(Marr)在70年代末思考的问题,在面对我们当今处理这个数据的时候还有意义?就是说马尔用了什么方法、什么思路框架,使它有生命力? (责任编辑:本港台直播) |