【图】MIT 新系统用机器学习实现机器学习，合成数据较好代替真实数据_本港台直播_J2开奖直播

　　新智元启动 2017 最新一轮大招聘：。

　　新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元，与人工智能业界领袖携手改变世界。

简历投递：j[email protected] HR 微信：13552313024

　　【新智元导读】使用真实数据所带来的隐私问题极大地阻碍了数据科学的发展。MIT 的本篇论文描述了一种自动创建合成数据的机器学习系统，这种合成数据与真实用户所产生的数据完全不同，却仍可用于开发和测试数据科学中的算法和模型。研究提出的 Synthetic Data Vault （SDV）可以从真实数据库中构建一个机器学习模型，来创建人造或合成数据。这一算法称为“递归条件参数聚合”（recursive conditional parameter aggregation）。研究显示，使用合成数据和使用真实数据的数据科学家的工作没有显著差异。

　　虽然数据科学家可以从大型数据集中得出很多洞见，并利用这些洞见应对挑战、实现任务目标——但这谈何容易！许多这样的努力从一开始就困难重重，因为隐私问题使科学家难以访问他们想要使用的数据。

　　在一篇提交给 IEEE 国际数据科学和高级分析会议的论文中，MIT 信息和决策系统实验室（LIDS）的 Data to AI Lab 成员 Kalyan Veeramachaneni，论文合作者、LIDS及数据、系统和社会学院（IDSS）的首席科学家 Neha Patki 和 Roy Wedge 描述了一种自动创建合成数据的机器学习系统，目的是使数据科学的努力，即使缺乏对实际数据的访问，也不会完全和真实情况脱节。使用真实数据可能会引起严重的隐私问题，而这种合成数据与真实用户所产生的数据完全不同，却仍可用于开发和测试数据科学中的算法和模型。

　　Veeramachaneni 说：“一旦我们为整个数据库建立了模型，我们就可以取样并再造出一个这些数据的合成版本，从统计学的角度看，合成版本看上去和原始数据库非常像。如果原始数据库中有一些缺失的值和一些噪音，我们还将该噪声也嵌入在合成版本中。在某种程度上，atv，我们正在使用机器学习来实现机器学习。”

　　这篇论文介绍了 Synthetic Data Vault （SDV），该系统可以从真实数据库中构建一个机器学习模型，来创建人造或合成数据。这一算法称为“递归条件参数聚合”（recursive conditional parameter aggregation），利用了所有数据库共有的数据层次结构。例如，它可以根据客户交易表中的交易信息，为每个客户形成多变量模型。

　　该模型捕获这些交易中多个域之间的相关性，例如购买数额和类型，以及交易发生的时间等等。在算法对每个客户进行建模并组合参数后，可以自己形成这些参数的多变量模型，并对整个数据库进行递归建模。一旦模型完成学习，开奖，就可以合成一个充满人工数据的数据库。

　　测试表明，合成数据能够较好地取代真实数据

　　在开发了 SDV 后，该团队使用它为五种不同的公开数据集生成了合成数据。然后，作为众包实验的一部分，他们聘请了 39 位独立数据科学家，分成四个小组，开发预测模型。他们想要回答的问题是：在被给予合成数据的数据科学家和访问真实数据的数据科学家之间，他们的工作是否存在区别？为了测试这一点，一组被给予了原始数据集，而另外三组拿到的则是合成版本，每个组使用他们的数据来解决一个预测建模问题，最终在 5 个数据集上进行 15 次测试，最后，比较他们的解决方案，可以看出使用真实数据生成的组和使用合成数据生成的组在 15 个测试中的 11 个上没有表现出显著的性能差异（70%）。

　　这些结果表明，合成数据可以成功地取代软件编写和测试中的真实数据——这意味着数据科学家可以使用它来克服访问中存在的重大困难。 Veeramachaneni 说：“使用合成数据可以摆脱‘隐私瓶颈’，这样一来后续的工作就可以开始了。这对一系列行业的数据科学都会有影响。除了一些以前无法进行工作现在可以开始以外，合成数据也将使数据科学家能够继续进行已经开始的工作，而不会涉及到真正的潜在敏感数据。

　　Veeramachaneni 说：“公司现在可以创建他们数据仓库或数据库的合成版本了。这样他们就可以规避诸如优步这样的公司所面临的问题，并使他们的数据科学家能够继续设计和测试方法，而不会侵害到正在使用他们服务的人士——包括他们的朋友和家人——的隐私。”

(责任编辑：本港台直播)