这些问题全都要考虑到,因为它们会影响到统计推断的质量,它们会让误差增加,这是很常见的工业界对员工的要求,但是在学术界并没有这样的领域能提供这些解决方案,至少对我而言是这样。我认为这是下个世纪的挑战,不是把我们现有的想法拿过来直接应用,而是作为科学来认真思考和践行。所以,这个问题上一个非常有帮助的表述是——计算思维和推断思维的结合。 计算思维不是说知道如何编程和使用数据库,而是一种思想。关于思考一个问题的抽象概念、模块性、性能……一切你在计算机课堂上学到的东西,而不仅仅是编程。计算机背景的人应该很熟悉这些,不熟悉的可能是推断思维。那是已经有超过两百年历史的统计学里的东西,不是一个新的领域,不是拿到数据就开始进行操作,像做数据库的人那样。 首先要考虑数据从哪来,数据背后是什么,数据获取的过程中有什么问题,这就是推断,还不严格属于计算机科学的研究范畴。即便最后得到的东西都是所谓的算法,你也必须思考背后的统计采样和总体。所以其实我并不是太喜欢机器学习这个词,我认为并没有什么新东西,还是统计思维。但是因为计算机科学家不太懂统计推断的东西,所以他们取了一个新名字叫做机器学习。 很多机器学习的工作都没有考虑推断、采样以及总体,只是把机器学习模型应用到数据却没有得到正确的答案,因为没有考虑偏差、因果推断等内容。我认为把两者结合起来并且认真研究是真正的挑战。我我以前更多关注算法和系统,过去几年越来越像个理论家,逐渐更关注理论同时在某些方面也是关注系统。我在实验室里设计系统的过程中看到了理论性的问题,所以我去寻找计算机和统计的理论,它们有什么概念可以怎么结合起来。所以我们发展了数据科学这个交叉学科,这并不容易。 统计决策理论里有损失函数和风险,但它的基础理论中没有运行时间的概念,你可以去查看几十年来成千上万的统计决策相关的论文,你不会看到任何一篇提及了运行时间;同样地,在计算机这边你可以找到成千上万的论文讨论复杂度,各种复杂度理论,但是却找不到关于统计风险的文章。而利用统计风险理论可以控制基于数据的错误率。此外,对统计估计问题的深刻理解不仅仅包括学习算法、还包括学习下界,学习你可能做的最好的是什么,但是在计算机理论里却没有太多关于下界的。有倒是有,但是不多。 接下来的演讲将进入我今天的重点主题,谈谈一些关于“理论”(theory)的问题。在统计学“推算”(inference)概念上的“计算”(computational)限制,以及一些关于建立数据分析栈的问题。差不多是AMP实验室里所做的事情,以及后续的叫RISE实验室的一些发展动态。 我们已经建立了一个系统来替代Spark。我想告诉大家,事实上这是我首次向公众宣布这个信息。这个打算替代Spark的工程正在进行中,这个替代会在1月份完成,而我在今天就宣布了。 我们现在来谈谈一系列问题,我使用一个私人数据分析的案例。这些隐私数据与你们是否相关可能并不重要,但它们的确引出了一些需要承载的问题。人们通常拥有数据,并希望这些数据发挥作用,但他们也希望他们自己的数据能得到保护,比说谁知道他们的数据。 试想一下,接下来的几年的医疗数据,你们当中的大多数人可能会得到你们的基因组序列,现在需要花费500美元去获得它。或许在五年或十年的将来,去找你的医生时,医生可能会对你说,在杯子里留一些你的血液或唾液,这样我就能获得你的基因。他会获得你所有的三十亿对基因,并且会存入数据库,他们将用这些数据做什么呢? 去预测你可能将来会患的所有疾病,也会尝试用于生物医学,以及生物信息学。他们未来会尝试通过给定的基因找出相对应的药物,并且把基因在一些方面表现出的缺陷和相对应的治疗联系起来。这是一个很好的机会,但也会带来很多问题,特别是隐私问题。 (责任编辑:本港台直播) |