朱:的确。我们当年考英语,多半是读,说和写都不行。我们考TOEFL、GRE Verbal的时候,就算没搞懂,也能蒙个60%-70%。新东方的题海战术也很奏效。当你做了大量考题,就算不懂,也能考好。当前大数据、机器学习就用题海战术。 这个方法强调在实战中检验,考什么就拼命复习什么,不考的东西就不学,这也很有道理,很直接,来得快。但是,因为你的模型没有真正理解,没有“真懂”,考试大纲外面的东西更不懂,那么后遗症就是,遇到新考题缺乏泛化能力,遇到新问题缺乏创造力。 想一想,如果我的学生一步步考试都是靠题海战术这么学过来的,那多可怕,要让他们去搞研究、创新,那就基本不可能。很遗憾的是,现在中国学生从幼儿园开始,就是在题海中泡大的。机器人、人工智能,靠题海战术是可以演示不少功能的,但那还离真正的智能比较遥远。 杨:好, 我明白这个analysis-by-synthesis 的意义了。他的第二贡献呢? 朱:他提出了一整套建模的理论和方法。把代数、几何、概率整合起来。代数指的是一些结构,比如群论,记得在科大本科学过群、环、域这些概念吧?也就是说我有一些基本元素,叫 generator,连接成为图graph,然后是群group,在上面进行操作, 产生了各种各样的变化。还有很多几何,变换,在连续情况就产生形变。通过组合,语法,产生丰富的图模式。然后,再在这个图模式的空间上定义距离(测度)和概率。 比如一个概率模型,是定义在一个什么样的结构上,它是个什么样的解空间?这个数理上你必须交代清楚,否则你的论文写不下去了。现在它的一个很大的应用在医疗图像上面,比如说一个病人,他的肝变形了,那么他的肝的形状和正常人的肝的形状之间怎么定义一个合理的距离?两张人脸,怎么定义这个距离的呢?这个距离定义在一个流型上,数学的流型(manifold)。 杨:这些东西真用上了吗? 朱:他有个Postdoc,名叫Michael Miller, 现在是Johns Hopkins 大学图像中心主任, 就用这一套方法来做医疗图像、脑科学(Brain Mapping)等方面的应用。 杨:他的第三方面的贡献呢? 朱:第三个方面主要是算法上面。当我们去做求解的时候,在一个解空间,这个求解空间肯定是一个非凸的,有千千万万的局部最优解local minimum 在里面。 杨:对。这是当时八十年代的时候提出来一个很尖锐的问题,好像有什么模拟煺火方法。 朱:很多蒙特卡洛算法都是他和这个学派的人提出来的。这个解空间是一个异构空间,空间里面非常复杂的,包含有很多子空间,子空间里面又包含又子空间,每个子空间维度又不一样,在它们之间,从一个解跳到另外一个解的时候,这跳转必须是可逆的。在计算机里面就叫可以回溯。从这个学派走出来的人,他们设计算法每一个步骤都是有章法的,要做到合规合矩。包括上面提到的吉布斯采样算法、可逆蒙特卡洛跳转法,还有变分法(variational methods)和偏微分方程式, 还有一些随机下降法(stochastic gradient), 这后者是目前训练深度学习模型的主要办法。他也开创了非参数模型的学习方法。这里面东西太多,先谈到这里吧。 (责任编辑:本港台直播) |