总而言之,书中对人类的“性”着墨较多,因为性是我们最想掩盖但又最感兴趣的几个问题之一。我们还能通过谷歌搜索和色情网站的数据调查发现一些古怪的性癖好,这种癖好可能会因国家和地区的不同而产生差异,这算是数据挖掘非常有趣的应用之一了。 关注数据可以提升影响力和收益 深入探究大数据,能得出显而易见的结论,也能收获意料之外的发现。 除了性,还有很多有趣、有料的研究,都能揭露人类愿望和行为在众多领域中的现状,这些领域包括政治、体育、教育和购物等等,其中也包含着很多实用素材。例如,有些数据能显示国家不同地区之间教育水平、地位取得的差别,马上就有使用价值;谷歌搜索则可以用于跟踪流感和其他传染性疾病的情况。 有时候,寻找相关研究也会带来可观的收入。例如有专家发现,赛马的成功取决于马的左心房的大小;还有研究则证实,葡萄早期生长的季节其实对酒的品质没有什么影响…… 毫无疑问,金融公司、超市、报纸、医院和网络内容的提供者——无论兜售的是色情内容还是花生大豆,都会密切关注这类数据,尽可能地拓展他们的影响范围和经营利润。 相关性 ≠ 因果 《每个人都说谎》不仅选材视野广,写作风格明快,而且提供了一些和人们固有印象相左的观察。但我认为其中唯一一些不足就是赛斯夸大了他所举的例子。 书中提到的数据工具号称能带来“巨大的转变”,其实是有些难以信服的。赛斯在书中不止一次地用“革命性的”一词来形容这些数据工具,但这让我更加怀疑它们到底实不实用。 ▌首先,数据并不是知识,它是知识的原材料。 赛斯自己也承认,理解相关性和理解因果关系并不是一回事,人们在的网页搜索记录和他们本身真实的特点之间其实很少能形成真实的因果关系。 我认为其中的一个原因是,一个人的搜索记录并不能像书中所说的那样能够反映他们内心的想法,开奖,所以一个人真正相信的东西可能远远超过他们网络行为的表象。 就拿性偏好的研究来说吧,到底有哪些特点是微不足道的怪癖?有哪些是能够反映人类大脑最真实的特点?仅依靠这些工具是没办法说明这一区别的。最后,你可能会得到一大堆数据,其中还包括许多冗余信息,但从不相干的事实中选出有用的数据点则完全是另一回事。 从这个层面来说,这种查阅网页检索记录和其他信息的方法可能过于简单了。 ▌其次,你很难控制所有能反映网页搜索的变量。 在我看来,“数据科学”中的“科学”二字仍然缺乏一定的严谨性。例如,书里提到的很多结论都是建立在很多个例研究上,并不能重复验证。有些例子的样本容量很大,但有些却很小。而且人们的想法会随着时间的推移而改变,所以研究时机的选择非常重要。这些都要求数据科学家承担起巨大的责任,确保这些结果是严谨,而不是过于简单化的。 这是理解人类行为的开端 考虑到上面所说的种种问题,我发现书中所描述的大数据其实是理解人类行为的开端,而不是影响人类行为的决定性因素。 这些大数据能告诉你它们的用途,但说不清楚能解决什么样的问题。书里很多有趣的研究都能很好地回答“是什么”,但大部分却很难解释“怎么样”,尤其是“为什么”。它们可以指出通向知识大门的路径,但没法告诉我们哪扇门可以被打开。 实际上,这些研究很难揭示有哪些事实可以超越人类现有认知,因为只有对于人类思维的真实理解才能为揭示真相打好基础。 本文未经授权,禁止一切形式转载。转载及内容合作,请发送私信至微信后台。 社交媒体让你更狭隘?不存在的...... (责任编辑:本港台直播) |