民意调查是打选战团队为寻找民意的利器,而近年来资料科学的兴盛,像是奥巴马的竞选团队善用资料赢得总统大选。但在这一次美国总统大选,却让众多民调组织叠破眼睛,从畅销书作者到新闻媒体纷纷预测失准。到底发生什么事情呢?而特朗普团队在自身预测会落选情况下,又怎么成功在一片看衰声下赢得选举? 综合各家表现,纽约时报 Upshot、CNN 等,或是《精准预测》作者网站 FiveThirtyEight,和普林斯顿 Election Consortium 都杠龟。到底这次选举有什么特别之处,让众位专家纷纷判断错误?而特朗普团队本身自己又怎么看他们分析的资料呢? 2016 年美国总统大选充满口水战,许多美国选民怀着对对手阵营候选人的恨意而投票。竞选过程中也少谈政见,表示过往的历史模式往往难以套用到这次选战。不过这不表示资料科学无效,而是使用资料的人解读资料失败了。由于总统大选每四年举行一次,需要相当长的时间才能验证建构的模型是否正确,而且往往要失误才能看出问题。 资料科学起初从电子商务开始,购物网站常见的推荐购买选项。后来资料科学应用的范围扩散到其他领域,像是舆情分析,医疗等。原先资料科学能发挥的地方,在选举预测就派不上用场了。购物有成千上万笔消费记录能参考建构模型,但换到选举能依赖的资料就不多。而且这些资料往往也有偏差。 更细致的模型建立让结果更贴近最终结果 不过不是每一家媒体都预测失准,洛杉矶时报与加州大学旧金山分校 Dornsife 学院合作的团队就在选前常常算出特朗普领先的状况,而最后预测特朗普当选,atv,依赖更细微的变因建构模型。洛杉矶时报华盛顿分部的 David Lauter 就说,他们依据更为细致的选项来建构模型,其中一个变因是依据百分为尺度,询问这次选举去投票的机率多高。而有较高倾向投票的人,其选择也会加权处理。 IBD/TIPP的民调做出来的结果也是特朗普当选。他们做了什么呢?他们打民调电话抽样更多手机用户。 特朗普团队的见解,觉得也不会赢但仍努力打下去 特朗普的资料团队以结果来说做了相当好的工作,即便他们自己做的数据显示特朗普是输的。选举前三周的 10/18,特朗普阵营内部的选举模拟器“Battleground Optimizer Path to Victory”显示特朗普有 7.8% 的机率能赢,在关键的州特朗普被判断落后,特别是佛罗里达。但值得留意是是特朗普落后的幅度并不大。 特朗普团队努力找出近年来饱受经济不好的铁锈地带选民,j2直播,用经济议题打选举。另外还吸引对既有体制不满的人投给他,希拉里的电邮门事件加速这些选票的转移。最后就如我们看到的结果,以相当接近的票数赢得一些关键州的胜利。 模型出错的可能原因 不少统计、数据背景的人对这次选举预测失准状况发布意见,像是耶鲁大学生物资讯中心研究科学家 Pradeep Mutalik 博士说:“这些模型过强调准确性了。”他计算媒体倚赖的投票模型失准程度达到 15~20%。 Google、FaceBook、Amazon 这些硅谷公司的成功,让不少人乐观的认为 big data 能解决一切。演算法,但往往缺乏背景知识而做出很离谱的决定。像是前阵子FaceBook的演算法判断越战经典照片,躲开烧夷弹攻击的女孩,被FaceBook认定是儿童色情图片,而被不少人批评。微软的 Tye 聊天机器人学会种族歧视的话语,很快被迫停止运作。Google Flu Trend 依据搜索数量预测流感流行状况,最初预测相当准,到后来数值严重高估。 如果没有认清资料有其限制,并且可能误信有瑕疵的假设,将会建出有问题的模型,澳洲资料科学和统计学家 Anthony Goldbloom 这么说。MIT 史隆商学院教授 Erik Brynjolfsson 说:“资料科学其实不是要给你答案,而是给你机率的科学。”因此统计学家或资料科学家大半都接受这次总统选举结果,因为就是有可能当选可能性低的人当选。 对于民调团队来说,这次美国总统大选可是很难受。像是《精确预测》作者被不少人包括本篇文章嘲笑,但如同前面提到只有出错时才知道问题出在那里,才有可能修正模型。 尽管大部分民调这次选举表现不好,其实这不表示 big data 或是资料科学是失败的,而是不好的资料,像是小量偏差的资料,有问题的演算法、和人类的偏见。民调、统计还是所谓资料科学,都是机率,意味事情没发生前,都有可能往另一个方向走。 (首图来源:By Gage (2012 Electoral College map) [CC BY-SA 4.0], via Wikimedia Commons) 相关链接 Trump’s Data Team Saw a Different America—and They Were Right The USC/L.A. Times poll saw what other surveys missed: A wave of Trump support How Data Failed Us in Calling an Election Trump’s Win Isn’t the Death of Data—It Was Flawed All Along Bad Election Day Forecasts Deal Blow to Data Science (责任编辑:本港台直播) |