选自Google Research Blog 机器之心编译 参与:李泽南、李亚洲 谷歌希望在人们的努力之下,我们最终能够像搜索论文一样轻松找到自己想要的数据集,新的标准是努力的第一步。 目前网络上有数百个数据库,它们提供了数以百万计的数据集。这些数据的提供者包括国家和地方政府、科学和出版机构、数据供应商等等,数据的涵盖面从社会科学、生命科学到高能物理、气候科学,几乎无所不包。这些数据对于促进研究结果的重现至关重要,能够让科学家在前人的基础上继续探索,让数据挖掘者可以更轻松地接触信息,探究它背后的意义。出于这些原因,很多出版者和资金提供者现在要求科学家们尽量公开他们的数据。 然而,由于网络上数据存储的数量庞大,人们会发现难以寻找自己需要的数据集,同时无法核实信息的来源和真实性。搜索数据集本应该像搜索食谱、工作甚至电影一样简单——那些类型的搜索通常是开放式的,能够偶然的发现搜索空间中的某些结构。 为了让书籍、电影、活动、食谱、评测和一系列其他类型的搜索在谷歌引擎上有更佳表现,我们依赖于各网站上嵌入 schema.org 词汇的结构数据。为了促进数据集实现类似的功能,我们最近发布了一个新的指导帮助数据提供商以标准的形式形容他们的数据集,让谷歌和其他的搜索引擎可以连接到这些结构化元数据描述的地理位置、出版商甚至知识图谱,以便被使用者发现。我们希望这些元数据可以帮助网上公开的信息能够更有效地被人们使用。 Schema.org 上形容数据集的方式基于最近在 W3C(Data Catalog Vocabulary)上的标准化成果,我们认为它是在未来不断完善描述和改进数据集索引的第一步。虽然各领域还在不断讨论,但我们认为这一标准已经为构建数据生态系统打下了坚实基础。 技术挑战 虽然我们已经发布了元数据的索引指南,但在轻松搜索数据集之前我们还面临着很多技术挑战。这些挑战包括: 数据集定义的一致性:例如,单一表格和大量表格的集合都算是一个数据集吗?如果都是,蛋白质序列呢?图片集合呢?用于链接数据的 API 呢?我们希望获得更多关于数据提供者的定义、解释以及使用方式。 数据集的识别:在理想状况下,数据集应该拥有一些被所有人认可的永久标识,让数据集具有唯一性,但在一些情况下这还不现实。原数据界面的 URL 或许是作为标识符的不错选择,我们需要提供多种标识符吗?如果有多重标识的话,需要选择一个主要标识吗? 彼此间关联数据集:什么时候两种记录能够统一的描述一个数据集?(例如,万一 repository 从其他人那里复制来元数据呢)如果数据整合方(aggregator) 在一个数据集上加入了更多的元数据,或者以有益的方式清洁了数据呢?我们正在研究如何明晰、定义这些关系。但是,元数据的消费者不得不假定这些数据提供者不准确描述的数据,并忍受这种情况。 在相关数据集间传播元数据:在相关数据集之间我们能够传播多少元数据?例如,开奖,我们可能从合成数据集到它包含的子数据集来传播出处信息。但经过这样的传播,元数据有了多少的退化?我们预期根据不同的应用退化程度不同:搜索应用的元数据可能要比数据融合的精确度更低。 描述数据集的内容:数据集要包含多少的描述内容,从而使得能够进行类似于 Explore for Docs, Sheets and Slides 中使用的查询,或者进行数据集的其他探索与重复使用(当然是在许可之下)?我们如何高效的使用供应商使用 W3C 标准已经描述的内容? 除了我们已经列出来的技术和社会挑战,剩下的许多研究挑战涉及到长期的开放式研究:许多数据集是用无结构的方式描述的,包括科学论文形式的说明、图解、表格,以及其他文档。我们能建立提取元数据的其他有前途的方式。虽然我们有合理的排序网页搜索内容的方式,而排序数据集是个挑战:我们不知道排序网页的 signals 是否同样适用于数据集。在数据集内容是公开且可用的情况下,我们可能能够提取数据集中额外的语义,例如,学习不同领域的值类型。但是,我们是否能够足够了解内容,atv,从而能够进行相关资源的数据融合于挖掘? 呼吁行动 对任何生态系统而言,一个数据系统只有在大量人员共同贡献的情况下才会繁荣,因此我们呼吁: 个人和数据仓库提供者:使用 schema.org、DCAT、CSVW 等社区标准公布结构元数据,这能使得其他人发现、使用这些元数据。 数据消费者(科学家到数据新闻更作者等):更准确的引用数据,如同我们引用科学论文一样。 开发者:为 schema.org () 元数据的数据集的拓展做出贡献,提供专业领域的词汇,以及研究使用这一丰富元数据的工具与应用。 (责任编辑:本港台直播) |