以下为迈克尔·乔丹于第二届“复旦科技创新论坛”暨第一届“复旦-中植科学奖”上的演讲,由复旦大学大数据学院张楠整理。以飨读者。 乔丹演讲《大数据的世纪难题——缺少理论化的科学体系》 迈克尔·乔丹:在建造一个大数据系统时,设计者通常都要面对精准性和计算速度的取舍,j2直播,目前并没有一个科学化的体系来指导我们。这个指导系统的重要性,就像是几千年来,人们修建房屋和桥梁,不断实践、试错改错、最后理论化提炼出土木工程这门科学,可以指导人们应对建筑工程中遇到的所有问题。在大数据时代来临之前,我们在相关领域取得了很多成果,比如计算机科学、统计学、机器学习等。但当我们面对大数据的新问题,我们并没有一套科学的解决方案,这是世纪挑战。 因此我们不能简单地将已有方法拿过来套用,而是要从科学的角度认真思考和尝试找到科学方法,其中非常重要的一点就是将计算思维和推断思维结合起来。 几十年来,研究者一直致力于用机器代替人来进行特定的活动。有些方面已经取得了巨大的成功,比如Google搜索引擎,我们在一个空白框内输入关键词,很快就可以得到我们想要的答案。就这个搜索框而言,其背后的技术在几十年中不断发展,通过数据的日积月累和算法的不断改善,形成了如今的非常个性化的服务系统。 在硅谷,越来越多的公司在设计、开发类似的个性化大数据系统,比如搜索引擎、电子商务、精准医疗等等。他们在数据不断涌入的情况下,通过调整参数、尝试不同模型,提高预测的精准性。相比控制出错的比例,公司更关心的是出错的绝对数量不要随着数据的增多而增加。 同时,大数据带来的另一个挑战是对计算速度的要求。数据越多,处理的时间也就越长。一个高度个性化的、准确的服务系统,如果运行起来很慢,用户是不会满意的。比如,搜索引擎的响应时间已经从最初的几秒优化到如今的几毫秒。如果思考得更长远些,今天我们有TB(1024GB)级的数据,几年后我们会有PB(1024TB)级的数据。丰富多样的数据可以使系统个性化、精准化方面再上几个台阶,但是同时人们也期待计算速度能够越来越快。 而计算思维来自于计算机科学,是一种思想,是关于思考特定问题的抽象化、模块化、扩展化和稳健化等方法,绝不仅仅是如何编程。计算机专业的学生在这些方面都会接受很好的训练,但被大家忽视的,也是特别重要的推理思维。推理思维不是新思想,它是有几百年发展历史,它是统计学中最核心的东西。推理思维强调的是,拿到数据,我们要思考数据是从哪里来的,背后的真实世界是怎样的,数据如何从真实世界中采集来的,会不会有采样偏差,等等。 遗憾的是,计算科学和统计学长久以来独立发展,直到如今的大数据时代,两个学科的交叉,才使得这两门学科遇到了真正的机遇,同时也带来了挑战。 一方面,计算机科学家并不太懂统计推断,所以他们把这方面的研究命名为机器学习。然而机器学习只是将模型应用到数据上,并不关注推断问题,以及样本和总体之间的关系,也没有涉及统计学中偏差和因果推断的内容。 另一方面,传统统计学理论关注损失、风险、随机性等概率性质,极少涉及计算时间方面的概念。 我们举一个医疗研究的例子来体会计算思维和推理思维的不同和联系。假设有一个存放患者健康信息和医疗历史的数据库,如果有直接查询的权限,我们就可以得到想要的信息,并进行下一步操作。但由于保护隐私的考虑,我们通常只能查询到经过随机化处理的间接信息。计算思维考虑的问题,就是基于间接信息的结果,如何尽可能得到近似原始观测得到的结果,使用这些扰动过的数据,能不能做出和使用原始数据一样好的预测。 推断思维的角度则完全不同。我们通常假设:数据库中所有患者的信息只是某未知真实总体的抽样观测,我们不仅关注那些信息已经存在数据库里的患者,我们也关心那些不在数据库中、但类型相似的患者。那么,j2直播,统计学家关注的是,基于数据库直接信息的结果会对真实世界的结果有多好的近似。 这是几十年前,这两个领域各自研究的问题。现在是如何把这两种思维结合起来。 (责任编辑:本港台直播) |