即便神经网络这样的机器学习技术能在底层数据捕捉非线性,但是地缘政治的变化改变了如国家及其边界这样的分析单位,这种改变带来了一个更基本的挑战,尤其是对于长期宏观预测来说。大多数宏观模型倾向于跟踪一组给定的现有状态到未来的属性,而忽略了领土变化的可能性,比如分裂与统一。然而,正如前苏联和南斯拉夫冷战结束带来的变化所展现的那样,这些国家的国家层面上的数据几乎没有为冷战结束后的预测提供指导。地域的变化之外,这些隐含的恒常性假设更普遍地适用于单位和因果机制效应之间的互动。这个问题阻碍了「交叉验证」的使用,这种方法会将数据集分成若干部分,其中一些是用来「训练」预测算法,还有一些是作为「抵抗(holdout)」部分,后面会用来测试算法。在一些将历史切成碎片这种做法的情况下,关于长期趋势的有价值信息会丢失,因为这种方法打乱了历史时期,把它们看成了是 等效的(equivalent)。 数据质量进一步阻碍了政治暴力预测的进展。与台球或行星运动轨迹不同,测量冲突的发生、地点和时间要难得多,而且这些预测与相当大的不确定性有关。对于许多暴力的决定因素,如经济状况,类似的问题也同样存在。即使在过去事件的统计解释测量上误差不是个问题,但它仍然对未来暴力行为的预测构成了挑战,同时还常常会降低暴力发生地点和时间预测的置信度。如果暴力测量结果与一个或更多的预测指标变量呈现系统性相关,那么会产生类型更多的严重错误。因为政治暴力往往是从新闻文章这样的次要来源(如新闻文章)编码而来的,所以高水平地暴力观察可能是源于高水平的实际暴力或者概率更高的报道(或者两者都是)。这使得预测很困难。扩大数据集——如在使用自动事件编码的几个项目中——可能加剧这一问题,因为它同样依赖次级来源。 即便在预测研究上的最近进展很有前景,我们还是要警告从理论和政策上高估其重要性的倾向。如上面所讨论,样本外预测有助于理论建设,但是,这并不意味着有效的解释必须始终是预测性的。根据达尔文的理论,一些高度依赖路径的过程只允许特定情况下的事后解释。鉴于冲突过程的复杂性特征,特别是在宏观层面,这样的解释仍然可以提供关于具体机制和政策有效性的关键信息。此外,将预测表现作为唯一有效的经验评估标准是不明智的,特别是在预测模型非常复杂和不透明,以至于尚不清楚预测成功的驱动因素是什么的情况下。例如,模型集合上的贝叶斯平均是一种优雅归纳技巧,它从竞争模型中汇聚了大量数据,但除非理顺理论上的问题,否则整体结果可能只不过是理论上的黑箱而已。 做政策相关的预测需要谨慎的原因研究还有一些。学者们给出的预测通常都假设政策制定者最要想要的是预测性的风险评估,因为这些东西能让他们通过配置预防性资源和干预减少潜在冲突。然而,这些希望假定了政策干预的效用已被广为人知。事实上,无理论的预测在不了解冲突的驱动因素的情况下很少能指导干预。因此,谨慎执行政策分析评估冲突减少措施带来的因果效用是有效政治宏观预测的先决条件。考虑到获得关键社会指标的可靠信息是有困难的,尤其在发展中国家,在许多情况下,一些基本描述和解释建模可能比预测更迫切需要。 推荐 有许多方法可以改善现有的冲突预测工作,例如,涉及到方法论和结果的沟通。在一些情况下,这需要更多用户友好的方式来呈现结果,比如报告现有和预测的趋势,而不仅仅是基于花哨估计技术的接收者操作特征(receiver operating characteristic,ROC)曲线。透明性还要求关于采样周期的关键假设和不确定性测量在多个场景中基于备选假设的情况下能被明确陈述和经过鲁棒性测试。否则,研究者的错误估计可能会传达一种错误的确定感。 为了评估新方法的附加值,分析师们需要更好地比较他们从复杂的预测机制中得出的预测与简单的基线模型。它最纯净的形式,比如一个基线模型,能简单地预测出过去没有给现在带来变化。例如,Lim 等人用一个基于 agent 的复杂模型预测了前斯拉夫种族暴力的位置。虽然该模型的预测精度乍一看令人印象深刻,进一步的检查发现,这种表现与一个在地图上随机标出暴力事件(塞尔维亚和黑山共和国除外)的模型差不多。 (责任编辑:本港台直播) |