在另一个资源分配样例中,产业领域很常见,就是使用 SML 预测客户流失(即消费者放弃一家公司服务)的概率,然后公司对那些具有高度流失风险的用户给予干预(比如扩大销售人员的服务范围),以这样的方式解决问题。Ascarza (12) 记录了采取这类举措的公司,然后使用借鉴自因果推理论文献的方法提供了经验证明:根据一个简单的预测模型来分配资源,并非最优的做法。高度流失用户组群和最优可能回应干预组群之间的重合只有 50%。因此,将留住用户的问题视为一个预测问题,为公司带来了更低的回报。 公共领域的资源分配问题是指一个城市应该优化分配监察点的地点,以最小化安全或健康问题。纽约的 Firecast 算法是根据预测的违反概率来分配火警监察点。Glaeser 等人 (6) 发明了一个类似的系统用于分配健康监测点(这对波士顿餐厅)的位置,该系统得到了应用,初步估计每次检查后,30% 到 50% 的违法情况得到了改善。 如何优化监测点分配的决策问题将直接归于预测领域——如果以下简化假设为真:(1)被检查单个单位的行为是固定的;(2)识别出问题时,能立刻低成本加以解决,成本并不因为单位(unit)不同而所有不同。知道哪个单位更有可能违法,等于知道哪个单位应该得到监察。不过,更加现实的环境还集成了不同单位的异质性:一个建筑可能因为老化的电路而处在更高的失火风险中,但另一些考虑会让置换老线路变得困难。另一些单位的预测风险更低,但是,更容易做出实质改善,改善成本也低廉。另一个考虑是回应(responsiveness)。如果违法被处以罚金,一些公司会比其他公司对罚金更加敏感。整体说来,解决城市监察点分配的问题包括评估监察政策的因果性:在新的监测点分配机制下,你希望这个城市里单位(比如,食物中毒率)的整体质量有什么样的提升? 因此,预测和因果推论是本质不同的两个问题(尽管密切相关)。只有分析师超过这些预测方法来做出假设时,因果推理才是可能的;这些假设通常不能被直接测试,因此需要领域专家来进行验证。已经有关于因果推论的横跨多学科(社会科学、计算机科学、医学、统计学、工程学以及流行病学)大型文献来分析这类问题(参看 Imbens and Rubin (13))。使用并非从随机测试中获取的数据来评估因果关系的办法之一就是针对导致微分检测概率(differential inspection probabilities)的因素进行调整,然后根据特定餐馆健康结果 预测检查的效果(或许使用审计)。近期的方法进展关注的是调节大数据应用中观察到的混杂因素(比如,14–16)这一文献的主题之一就是现有的来自 SML 的预测模型招致了因果效果预测中的偏差问题,但是,持续有效的因果估计能够通过修改 SML 技术得以实现。 另一个用于估计因果效应的方法就是利用设计好的实验。Blake et al. (17) 使用了一个以城市为基础的双重差法(difference-in-difference methodology)来评估 eBay 的搜索广告的效果(因果)。就像许多搜索广告商,eBay 靠历史数据来测量搜索广告的好处,不过,也确实试着区分开因果性和关联性。而且,eBay 使用一个简单的预测模型(其中,点击被用来预测销售)测量了广告的效果,他们发现广告点击的投入回报(也就是说,由点击所贡献的 eBay 销售与广告点击成本之比)大约为 1400%。 通过使用实验数据测量广告效果,作者发现真实的投入回报为 63%。天真的分析和实验结果之间存在鸿沟的部分原因是许多点击 eBay 搜索广告的用户本来是要从 eBay 买东西的。尽管点击广告强烈预示着一次交易——消费者通常会在点击之后迅速购物——实验揭示出,一次点击很难说有大的因果效应,因为不管怎么说,点击的消费者很可能要购物。 除了资源分配问题之外,纯预测和因果推断之间的区别几十年来一直是很多领域内方法和经验研究的主题。经济学对这个区别特别关注,或许是因为一些最基本的经济问题,如在不同的价格下消费者的需求变化,不能通过纯预测模型来得到答案。举个例子,同一个产品在不同(假定的)的价格水平下,消费者的购买量是多少?虽然这个问题似乎看起来可以直接套用 SML,将价格水平设置为一个说明性的特征(feature)来预测出销售量的「结果」。在实际操作时,如果 SML 被用作一个估计价格与销售量之间的因果效应的方法,这个方法将会很失败。假设,一个分析师有酒店价格和入住率的历史数据。一般情况下,价格和入住量是正相关的,因为酒店既有的价格政策(经常通过利润管理软件来制定)明确规定当酒店预订越来越满时酒店提高价格。直接套用 SML 技术的应用是为回答以下类型的问题所设计:如果一个分析师被告知在某天,客房价格非比寻常的高,那么这天最准确的入住量预测是多少?正确的答案是入住量将很可能很高。相反,改变价格政策的影响问题是一个因果问题,并且一般经验表明如果公司执行一项新政策来系统性的提高酒店所有服务价格的 5%,那么酒店将很可能会有更多房间被入住。另一个不同系列的统计技术将可以用于回答这样的问题,或许可以利用数据中「自然的实验」即一个被称之为「工具变量」的方法 [13 是对这些技术的回顾]。最近,一些作者将 SML 的优势同这些传统小数据系列的方法结合起来了,为了用于估计典型因果效应和私人化的因果效应估计。 (责任编辑:本港台直播) |