我们的研究结果来自于一次探索性数据分析,研究的是 Facebook 里「最后时刻」的自我审查,或者被过滤后写下的内容。我们收集的数据,来自 17 天内的 3,900 万名用户。在研究过程中,我们还关联了用户的特征描述、社交图谱,以及两者之间的相互作用。 这意味着,假如你发布了一条「我恨我的老板,他快把我逼疯了」这样的状态,但在最后时刻改变了主意,「天呐,这工作真是疯了。」Facebook 仍然知道你在删除前输入了什么。 以下是一些他们用来进行研究的数据点:
这些是比较有趣的方面:删除的帖子、删除的评论,以及删除的签到。你没有写下的东西,不保证不会被 Facebook 储存;同样得不到保证的是,假如你删除了数据,它们真的能从系统中消失。 Facebook 通过跟踪元数据——即描述数据的数据——能够跟踪被删除的帖子。举个例子,一段通话的数据是你在通话期间谈论的内容,而元数据是指呼出电话的时间、地点以及通话时长等信息。 对于 Facebook 而言,元数据与原数据同等重要,也是推断你个人信息的依据之一。通过 Chrome 浏览器上的开发者工具,我们很容易看到以 xhr 形式从客户端传送到 Facebook 后端的大量数据。我并不是前端高手(但很乐意与任何一位交谈,探索其他可以提取到的数据),但从下图可以看出, Facebook 记录了你花费在某个未知动作上的时间,可能是如 Facebook 此前报告的,在网站停留的时间。
巧的是,这种情况也出现在删除账户的时候。 Facebook 有许多系统和数据汇集的地方。一名前 Facebook 顾问写道: 回答你问题的前面部分,「你是否可以有偿地让 Facebook 严格删除你所有的信息?」假设严格是指完全擦除任何你曾留在 Facebook 上的痕迹,那么答案是否定的。 对于已删除的帖文,情况类似。我们不确定 Facebook 是否真正在后端数据库中删除了帖文,而不只是在客户端上隐藏了它。 当你真正发布一则帖子、上传一张图片,或者只是修改了任意信息,Facebook 完全有权力把这些数据用于内部研究,打包销售给如 Acxiom 那样的市场数据收集机构,或者通过国安局(NSA)或者棱镜计划提供给美国政府。 发布状态后 Facebook 收集的收据 毫无疑问,Facebook 收集了你主动提供的所有数据:政治关系、工作地点、喜欢的电影、书籍、打卡的地点、你发表的评论以及任何对帖子的操作。Facebook 允许用户下载数据库中的部分个人数据。 在我的个人数据中,可以看到如下内容: 我上传的照片以及圈出我的照片视频 所有我曾发布在个人时间线上的东西(包括我曾表示感兴趣的活动、其他人发布在我时间线上的东西、分享的回忆等) 我的好友以及加为好友的时间 我所有的私人信息 我曾参加过的活动 我曾用来登录账户的所有设备 以及我可能感兴趣的广告。这并非我自己提供的信息,而是 Facebook 基于我所发布的东西通过算法生成的。 我们下面会谈到有关广告的部分。 除了数据以及元数据,Facebook 还跟踪用户的注意力。其中一个方法在前文已经提过:那些没有发布的状态。另外一个方法是在视频播放过程中通过热点图来记录用户的参与程度。 除了你的个人信息,Facebook 还知道有关你好友的一切。这意味着,即使你的个人资料不完整或是很少发布状态,这并不影响 Facebook 对你的了解。 Facebook 在内部如何使用你的数据 对于收集到的数据,Facebook 做了不少事情。 首先,它在收集到的数据上运行简单的程序,用来提高网站的表现,或者用于业务报告(例如网站的正常运行时间、用户量、日收入等)。其他任何一家公司也都会这么做。 然而事情在 Facebook 中有一点扭曲。它拥有的庞大工程师团队专注于构建工具,目的是提高使用 SQL 类语言查询数据的便利性,该语言建构于 Hadoop 和 Hive 之上。尽管 Facebook 声称对于数据的访问受到严格的控制,但一些报道却与此相斥。 (责任编辑:本港台直播) |