此外,Veeramachaneni 及其团队的机器学习模型在规模上可以轻松缩放,创建非常小或非常大的合成数据集,适应大数据系统的快速开发周期或压力测试。 人工数据也是教育学生的宝贵工具。真实数据对于他们的工作往往过于敏感,现在则可以有效地利用合成数据。这一创新可以让下一代数据科学家享受大数据的所有好处,而不用承担任何责任。 IEEE 论文:合成数据库
摘要 本研究的目标是建立一个自动创建合成数据以实现数据科学潜能的系统。为了达到这一目标,我们提出了 Synthetic Data Vault (SDV),该系统构建了关系数据库的生成模型。我们能够从模型中进行抽样并创建合成数据,因此命名为SDV。在实施 SDV 时,我们还开发了一种算法,用于计算相关数据库表的节点处的统计信息。然后,我们使用最先进的多变量建模方法对该数据进行建模。SDV 遍历所有可能的关系,最终为整个数据库创建一个模型。一旦该模型的计算完成,相同的关系信息允许SDV 从数据库的任何部分进行抽样来合成数据。 构建 SDV 后,我们使用它为五个不同的公开数据集生成合成数据。 然后,我们发布了这些数据集,并要求数据科学家为它们开发预测模型,作为众包实验的一部分。通过分析结果,我们显示合成数据可以成功地在数据科学中替代原始数据。我们的分析表明,使用合成数据而非真实数据的数据科学家的工作没有显著差异。我们得出结论,SDV是合成数据生成的可行解决方案。 论文地址: MIT 报道文章: 新智元招聘
职位:客户总监 职位年薪:30 - 60万(工资+奖金) 工作地点:北京-海淀区 所属部门:客户部 汇报对象:COO 下属人数:8 人 年龄要求:25 岁 至 40 岁 性别要求:不限 工作年限:5 年 语 言:英语 + 普通话 学历要求:全日制统招本科 职位描述: 热爱人工智能,在行业内有一定的人脉资源和影响力; 为客户制定媒体关系策略和公关活动策划,达成客户的市场或传播目标; 负责监督公关项目的计划和实施,使项目能按期在预算内完成; 积极拓展客户资源,开发公司业务,与既有客户保持紧密的业务联络和沟通; 监督、管理及考核客户服务团队,全面提升公司客户服务质量; 理工科背景优先,有知名企业或知名媒体机构工作经验者优先。 (责任编辑:本港台直播) |