在阿西莫夫的《基地》系列科幻小说中,天才哈里·谢顿几乎完美地预测了银河帝国的衰落和之后相当长一段时间的发展。随着近年来机器学习技术的兴起,基于数据的预测在搜索引擎、定向广告和个性化推荐等许多特定的应用领域取得了很大的发展成果,但在更加广泛的科学发现预测、政治预测、社会事件预测乃至人类文明发展的预测上,机器学习还能实现同样的成就吗?而今天我们又已经在这些领域走到哪一步了呢?今日,Science 推出了一个关于「预测(prediction)」的专题,通过多篇文章解读了上述多个领域的研究进展和面临的挑战。机器之心选择了其中几个主题进行了详细编译,其余的则进行了一些摘要介绍 (篇幅限制没有列出参考文献)。想要更详细了解该专题内容的读者可参阅: 序言 人类从远古时代通过萨满烟熏内脏的方式开始就一直不断尝试着预测未来。正如本专题所探讨的,预测现在是一门高速发展的科学。该文章探讨了如下问题:怎样分配有限的资源、一个国家是否会陷入冲突中、谁将有可能赢得选举或发表一篇影响巨大的论文以及在这样一个新兴领域中如何建立标准。 社会科学家和机器学习社区正在学习新的分析工具,从而从乱糟糟的数据中分离出真正有意义的模式。新工具是令人兴奋的,但是如果只是使用框架上的软件包而没有完全去理解它,那么就会导致一些灾难。这一专题的几位作者描述了平衡机器学习方法和人类因素的现实目标的重要性。 在 20 世纪 50 年代,著名作家艾萨克·阿西莫夫想象了心理史学的图景,其中计算机可以通过庞大的数据集预测帝国的兴亡。现在科学还不能完全做到这样,就像上一次美国大选那样。新闻报道和相关的报告也都描述了最新的科学技术进展,科学家们也相信随着方法的改进和验证数据源的增长,选举和其他社会实践将变得越来越可以预测。 当在多学科交叉领域中努力解决问题时,如将人类对语义的理解和能处理 TB 级数据的算法结合起来,成功似乎将会到来。研究人员可能仍然远远不能做出政策制定者所期望精度的预测,但是他们现在能够预想的情景能帮助塑造一个更好的未来。 一、预测武装冲突:是时候调整我们的期望了吗? 摘要:这篇文章介绍了预测政治暴力(political violence)的一般性挑战,特别是相比于其它类型的事件(比如地震)的挑战。什么是可能的?什么又不太现实?我们的目标是揭穿关于预测暴力的神话,以及说明这一领域的实质进展。 如果「大数据(big data)」可以帮助我们找到合适的合作伙伴、优化酒店房间的选择和解决许多其它日常生活中的问题,那么它也应该能够通过预测致命冲突的未来爆发来拯救生命。这是许多将机器学习技术应用于来自互联网和其它来源的新且大规模的数据集的研究者的希望。鉴于世界上仍还有政治暴力所带来的苦难和不稳定,这一愿景是冲突研究者在政策影响和社会控制上的终极前沿。 话虽如此,但在学术的冲突研究上,预测仍然是非常有争议的。仅有相对很少的冲突专家尝试过明确的冲突预测。此外,还没有建好的早期警报系统可以作为决策的可靠工具,尽管目前已经有一些重大努力了。 近年来,我们已经看到了一系列想要填补这一空白的文章出现,它们利用了大规模数据收集和计算分析领域内的最新进展。这些研究中的任务是预测在给定的国家和年份是否有可能发生国际或国内的冲突,并借此创建全球暴力冲突的年度「风险地图(risk maps)」。最开始的预测模型基于当时政治学领域新兴的定量方法(quantitative methodology)且依赖于简单的线性回归模型。 但是,人们很快就认识到这些模型无法捕获冲突预测的多变影响和复杂的相互作用。这种认识导致了机器学习技术的引入,比如神经网络,这是一种持续至今的分析趋势。在这些模型中,生成暴力后果的风险因素的互动是从数据中归纳式地推断出来的,而且这个过程通常需要高度复杂的模型。今天,冲突预测工作的主要主要部分仍然是在年度上的国家层面分析,也有一些研究已经将其预测的时间范围推至了未来数十年。 最近,新的可用数据和改进过的模型让冲突研究者可以理清政治暴力的时空动态(temporal and spatial dynamics)。其中一些研究可以给出月度或日度的预测。这样的时间划分需要修正已有预测模型。比如说,在 [5] 中提出的方法基于以色列-巴勒斯坦冲突的冲突事件数据。该分析使用一个区分高强度和低强度冲突的模型,基于 1996 年到 2009 年的数据生成了 2010 年的预测。另一些方法的目标是利用新类型的预测器(predictor),比如战争相关新闻报道。因为它们能够以远远更高的时间频率上扑捉到政治紧张,这些报道被证明是比传统的结构变量(structural variables,如民主的水平)更强大的战争发生预测器。 (责任编辑:本港台直播) |