在机器之心的这次专访中,张潼结合自己的研究和从业经历谈了谈自己对机器学习领域研究发展的一些观点。他认为在浅层学习时代,理论对实践有很大的指导作用;虽然当今的深度学习缺乏理论基础,随着相关研究的不断深入和发展,理论将又会对实践起到重大推动作用。 在张潼刚开始相关研究的时候,深度学习还远不像现在这样火热。他说他早年在斯坦福大学博士期间研究方向是数据计算,毕业后在 IBM T.J. Watson 做机器学习和自然语言方面的研究,当时是数据驱动的机器学习方法在工业界迅速发展的时期。再后来加入雅虎纽约研究院接触到互联网规模的文本和大数据分析。 后来张潼又回到了大学进行研究,这时候的研究方向就更关注机器学习的基础研究了,比如统计机器学习。他介绍说:工业界经历让我比较注重理论和实际的结合。比如 2010 年左右和当时在 NEC Lab 的余凯合作,做了一系列以统计机器学习理论为基础的浅层模型,代表图像分类当时世界上的最高水平,并在一些国际重要的比赛中取得冠军(比如第一届 ImageNet)。近期在工业界的实践也让我对深层次的模型很感兴趣,并且现在也做一些深度学习的应用和研究。 张潼博士也是 NIPS、ICML 这些世界顶级会议上发表论文最多的华人之一。在说到 NIPS 会议最近的发展变化时,张潼评论说 NIPS 一直以来都是机器学习领域中比较受欢迎的一个会议,因为研究方向跨学科,比较包容,可以促进大家交流,并且注重新的想法,可以开拓思路。早期时候会议比较小,但包括的范畴更广,包括神经科学、统计学,也有语音、图像等应用研究;当时比较注重新的统计模型,以及理论结合实践;现在 NIPS 会议规模变大了很多,而且和其他会议更加趋同,比如 NIPS 和 ICML 区别就不如以前那么明显了。现在的机器学习研究更偏实际偏应用,大家快速搞一个模型或算法,调一调参数,在一些数据集得到更好结果,文章就发表了。不过 NIPS 还是保持了一些原来的特色,每年都会有一些有真正创新想法的文章发表。 而研究也不能只关注实际应用,理论基础也是非常重要的。按姚星的话讲,atv,甚至「理论基础是最重要的」。 但有时候理论却是我们一个不得不避其锋芒的问题,因为深度神经网络的复杂度,很多相关的研究实际上是在操作「黑箱」,给人带来了神经网络太复杂,理论跟不上的感觉,但张潼认为,理论研究跟不上不应该妨碍实践者自己向前走。深度学习在实践中快速发展是一个好事情,会让理论学家进行反思,思考到底能对现在这些更复杂的模型做出什么有价值的贡献。他认为在深度学习方面的理论研究今后会越来越多,也将能给实践方面的研究带来一些指导作用,就像浅层学习时代发生的情况一样。 姚星也同意张潼的看法,他说,「现在深度学习大部分是启发式的经验类的东西在起作用,缺乏一些理论。如果深度学习要走得更远,就必然要从理论上面去补上这个差。我们 AI Lab 的一个很强的使命就是要让深度学习走得更远。这需要我们扎扎实实做一些基础上的研究,再做一些基础算法、理论上的研究。以应用式、经验式、启发式为主的方法的天花板是有限的,这也是张潼会来 AI Lab 的一个很重要的原因。」 延展阅读:
(责任编辑:本港台直播) |