在新的数据源、新实验和新想法的驱动下,我们期盼科学的科学可以产生更多有关社会过程并能导致科学发现的振奋人心的洞察。研究已经表明,这些发现的某些方面是可预测的,并且它们在很大程度上与以往发现的引用随时间积累的途径相关。然而在其他方面可能根本上就不可预测。这些限制在如今的大数据与人工智能时代是微不足道的见解,并表明用于产生科学发现的更可靠引擎可能是培养和保持科学家健全的生态系统,而非专注于预测个体发现。 三、超越预测:使用大数据解决政策问题 摘要:从医学到分配城市火警、卫生监察点等应用领域,机器学习预测方法硕果累累。不过,在预测和决策之间仍然存在不少鸿沟,我们需要了解基本假设以优化基于数据的决策行动。 最近,科学、产业以及政府领域分析的爆炸增长,以寻求「大数据(big data)」的帮助来解决各种问题。日益增长的大数据应用使用了有监督的机器学习(SML/supervised machine learning)工具。在描述这一工具有望用来解决临床医学问题时,Obermeyer 等人评论到:「机器学习……就像医生通过实习获得进步那样来解决问题:从数据中学习规则。开始是病人观测值,然后算法筛选大量变量、寻找可靠的预测结果的组合……机器学习的优势就是可以处理大量预测因素(predictor)——有时还惊人地预测因素比观测值还多,并以非线性、高度交互的方式将它们组合起来。」 SML 技术最初出现在计算机科学和工程学领域,已被广泛用于工程应用,比如搜索引擎和图像分类。最近,用这一方法解决科学和政策问题的应用数量也越来越多。在公共领域,这一方法模型已经被用于刑事司法制度(2);使用移动数据、卫星图像或谷歌街景(3、4、5)预测经济状况;分配城市火警、健康监察点等,以及各种城市应用。该技术已经被用于分类文本中的政治偏见(8)以及评论中的情感分析。在医学领域,基于有监督的机器学习预测算法已经被医院用于按照病人的并发症的风险预测病情,优先安排病人的医疗干预 (10),该技术还被广泛用于多种其它医疗应用,包括个性化医疗(1)。 有监督的机器学习的迅速普及部分归功于数据、计算技术以及资源、数据分析技术、开源软件方面的进步。另一个因素这些技术被设计用来解决的问题很简单。现成的预测技术要发挥作用几乎不用什么假设(assumption):环境必须稳定、其行为正被研究的单元个体不会互动或相互干扰。在许多应用中,SML 可以被对问题领域所知甚少的科学家成功地加以应用。比如,Kaggle 公司主办的预测竞赛()中,赞助商提供数据组,来自世界各地的选手提交的作品常常能成功预测,无论其关于问题的背景多么有限。 然而,atv,对纯预测方法的局限性的关注要少得多。当这一方法被用于现成的预测,而没有理解基本假设或确保满足诸如稳定性等条件时,结论的有效性和有用性就会受到损害。一个更加深入的担忧时,只使用预测技术是否就能解决给定问题,或者是否需要对干扰的因果效应(causal effect)进行评估的统计方法。 Kleinberg 等人(11)强调了这一情况,现有的 SML 技术可以部分(但无法全部)解决健康政策领域的资源分配问题。他们考虑的问题是决定是否通过医疗保险给否则不合格的病人做髋关节置换手术。他们使用 SML 预测概率(一个要进行关节置换手术的患者是否会因其他因素在一年内死亡),以及识别那些处在特殊高风险,不该进行关节置换手术的患者。他们认为:「好处会随着时间的推移自然显现,因此,如果某人能获得够久来享受手术的好处,那么手术才有意义;给不久就会死亡的病人置换关节没什么价值——浪费金钱,给生命的最后徒增不必要的痛苦。」 这类问题中,聚焦预测的基本原理是很明显的;我们知道,一个干预的平均影响,在某种世界状态下,也是负面的(如果病人很快死亡),因此,预测世界状态足以用来预测是否放弃手术这一决定。不过,作者强调了这一事实:纯粹的预测方法并不能解决更加复杂的问题,比如,在那些可能存活超过一年的病人中,哪些病人该被给予最高的手术优先性。一个完整的资源分配问题需要评估手术效果的异质性,比如,因为一些病人有更高的手术并发症。将稀缺资源优化分配给手术效果能最大改善其福利的病人,是一个更加困难的问题,这个问题太长需要回答反事实的问题:采取那些以前从未实施过的各种替代分配政策后,会发生什么? (责任编辑:本港台直播) |