本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】观点|朱松纯:初探计算机视觉三个源头兼谈人工智能(4)

时间:2016-11-30 01:47来源:本港台现场报码 作者:118KJ 点击:
他说, 要解决这个问题,可以把它分成计算(其实应该说成是表达)、算法和实现这三个层次。首先,在表达的层次,我们问一下这是个什么问题,如何

他说, 要解决这个问题,可以把它分成计算(其实应该说成是表达)、算法和实现这三个层次。首先,在表达的层次,我们问一下这是个什么问题,如何把它写成一个数学问题,任务是什么,输出是什么?这是独立于解决问题的方法的。其次,对这个数学问题去求解时可以选择不同的算法,可以并行或者串行。再次,一个算法如何在硬件上实现,可以用CPU,DSP,或者神经网络来实现。很多观察到的心理学和神经科学的现象都是跟系统硬件有关的东西,比如说人的一些注意机制、记忆力。这些应该从表达层面剔除。这样,视觉就可以从纯粹的理论、计算的角度来研究了。我们可以参考心理学和神经科学的结论,但这不是主要的。——打个比方,要造飞机可以参考鸟类的结构,但关键还是建立空气动力学才能从根本上解释这个现象,并创造各种飞行器,走得更远。

:他这么一说,今天看来好像很自然地就可以理解了,但是在当时,可能没有多少人是把问题这样分解的。

:当时分不开。因为当时站在像神经科学和认知科学角度,是拿一些实验现象来说事,但不知道这个现象是在哪一层出现的。

  比如神经网络和目前的深度神经网络的学习,他们的模型(表达)、算法和实现的结构这三层是混在一起的,就变成一个特用的计算设备,算法就是由这个结构来实现的。当它性能不好的时候,到底是因为表达不对,还是算法不对,还是实现不对,这就不好分析了,目前的神经网络,或者是机器学习、深度学习,它的本源存在这个问题。

  以前我们审稿的时候,会追问论文贡献是提出了一个新的模型还是一个新的算法、在哪一个层级上你有贡献,这必须说得清清楚楚。2012年,我担任国际计算机视觉和模式识别年会(CVPR)的大会主席, 就发生一个事件,收到神经网络和机器学习学派的一个领军人物 LeCun的抱怨信,原来他的论文报告了很好的实验结果,但审稿的三个人都认为论文说不清楚到底为什么有这个结果,就拒稿。他一气之下就说再也不给CVPR投稿了,把审稿意见挂在网上以示抗议。2012年是个转折点。

现在呢?随着深度学习的红火,这三层就又混在一块去了。一般论文直接就报告结果,一堆表格、曲线图。我就是这么做,然后再这么做,我在某些个数据集上提高了两个百分点,那就行了。你审稿人也别问我这个东西里面有什么贡献,哪个节点代表是什么意思,你别问,我也不知道。那算法收敛了吗、是全局收敛还是一个局部收敛,我也不知道,但我就是提高了两个百分点。

:或者要用多少数据来训练材料才能够呢?

:对,这个也不用管,而且说不清。反正我这个数据集就提高是吧?所以从这个角度来讲,它就很难是一个科学的方法。可以认为它就是一个工程或者是一个经验的,有点像中医。那么要往前再发展的时候,你必须要理清楚这三层的事情。

:对。

:他的第二个贡献是理清视觉到底要计算什么。Marr提出了一个系列的表达,从primal sketch(首要简约图),到2 ½ D sketch(深度简约图),到3D sketch。这里面还包含了纹理、立体视觉、运动分析、表面形状等等。比如说我要估计一个物体的深度和形状,我就估计它的光照和物理材料特性;还有,三维几何形状怎么去表达?他试图去建立一个完整的体系。

现在的视觉就基本上被很多人错误地看成一个分类问题,你给我一张图像,我就说这个图像里有一只狗或没有狗,但狗在哪儿都不知道,头在哪、脚在哪,不知道。Marr的框架是有秩序的,现在的秩序在做深度学习的人眼中还不存在,或者还没忙过来。各人做各人的分类问题,比如说有人算这个动物分类,有人算这个家具的分类。各种分类以后,它们之间怎么样的关系呢?对这个图像或场景要产生一个整体的语义解释。

第三个贡献,Marr提出了一个非常重要的概念,到现在一直还没有一个完整的解答。他说,计算视觉是一个计算的“过程”——这是什么意思? 我们以前用贝叶斯方法(以及现在的深度网络)认为视觉就是表达成为一个后验概率,寻求一个最优解。这个解就是图像的解释,这个求解过程就会终止。可是Marr说的这个事情,它不是单纯去求一个解,而是一个连续不断的计算过程:我给你一张图像,你越看、越琢磨,你可能看到的东西会越多。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容