新智元启动 2017 最新一轮大招聘:。 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元,与人工智能业界领袖携手改变世界。 简历投递:j[email protected] HR 微信:13552313024 【新智元导读】使用真实数据所带来的隐私问题极大地阻碍了数据科学的发展。MIT 的本篇论文描述了一种自动创建合成数据的机器学习系统,这种合成数据与真实用户所产生的数据完全不同,却仍可用于开发和测试数据科学中的算法和模型。研究提出的 Synthetic Data Vault (SDV)可以从真实数据库中构建一个机器学习模型,来创建人造或合成数据。这一算法称为“递归条件参数聚合”(recursive conditional parameter aggregation)。研究显示,使用合成数据和使用真实数据的数据科学家的工作没有显著差异。 虽然数据科学家可以从大型数据集中得出很多洞见,并利用这些洞见应对挑战、实现任务目标——但这谈何容易! 许多这样的努力从一开始就困难重重,因为隐私问题使科学家难以访问他们想要使用的数据。 在一篇提交给 IEEE 国际数据科学和高级分析会议的论文中,MIT 信息和决策系统实验室(LIDS)的 Data to AI Lab 成员 Kalyan Veeramachaneni,论文合作者、LIDS及数据、系统和社会学院(IDSS)的首席科学家 Neha Patki 和 Roy Wedge 描述了一种自动创建合成数据的机器学习系统,目的是使数据科学的努力,即使缺乏对实际数据的访问,也不会完全和真实情况脱节。使用真实数据可能会引起严重的隐私问题,而这种合成数据与真实用户所产生的数据完全不同,却仍可用于开发和测试数据科学中的算法和模型。 Veeramachaneni 说:“一旦我们为整个数据库建立了模型,我们就可以取样并再造出一个这些数据的合成版本,从统计学的角度看,合成版本看上去和原始数据库非常像。如果原始数据库中有一些缺失的值和一些噪音,我们还将该噪声也嵌入在合成版本中。在某种程度上,atv,我们正在使用机器学习来实现机器学习。” 这篇论文介绍了 Synthetic Data Vault (SDV),该系统可以从真实数据库中构建一个机器学习模型,来创建人造或合成数据。这一算法称为“递归条件参数聚合”(recursive conditional parameter aggregation),利用了所有数据库共有的数据层次结构。例如,它可以根据客户交易表中的交易信息,为每个客户形成多变量模型。 该模型捕获这些交易中多个域之间的相关性,例如购买数额和类型,以及交易发生的时间等等。在算法对每个客户进行建模并组合参数后,可以自己形成这些参数的多变量模型,并对整个数据库进行递归建模。一旦模型完成学习,开奖,就可以合成一个充满人工数据的数据库。 测试表明,合成数据能够较好地取代真实数据 在开发了 SDV 后,该团队使用它为五种不同的公开数据集生成了合成数据。然后,作为众包实验的一部分,他们聘请了 39 位独立数据科学家,分成四个小组,开发预测模型。他们想要回答的问题是:在被给予合成数据的数据科学家和访问真实数据的数据科学家之间,他们的工作是否存在区别?为了测试这一点,一组被给予了原始数据集,而另外三组拿到的则是合成版本,每个组使用他们的数据来解决一个预测建模问题,最终在 5 个数据集上进行 15 次测试,最后,比较他们的解决方案,可以看出使用真实数据生成的组和使用合成数据生成的组在 15 个测试中的 11 个上没有表现出显著的性能差异(70%)。 这些结果表明,合成数据可以成功地取代软件编写和测试中的真实数据——这意味着数据科学家可以使用它来克服访问中存在的重大困难。 Veeramachaneni 说:“使用合成数据可以摆脱‘隐私瓶颈’,这样一来后续的工作就可以开始了。这对一系列行业的数据科学都会有影响。除了一些以前无法进行工作现在可以开始以外,合成数据也将使数据科学家能够继续进行已经开始的工作,而不会涉及到真正的潜在敏感数据。 Veeramachaneni 说:“公司现在可以创建他们数据仓库或数据库的合成版本了。这样他们就可以规避诸如优步这样的公司所面临的问题,并使他们的数据科学家能够继续设计和测试方法,而不会侵害到正在使用他们服务的人士——包括他们的朋友和家人——的隐私。” (责任编辑:本港台直播) |