wzatv:MIT 新发布大型数据集 ADE20K：用于场景感知、语_本港台直播_J2开奖直播

参与：黄小天、Smith

近日，MIT 通过官网发布了一款名为 ADE20K 的数据集，开奖，可用于场景感知、解析、分割、多物体识别和语义理解。整个数据集（包含所有的图像和分割在内）的大小为 3.8Gb。MIT 从下载、描述、浏览、评估等方面对该数据做了扼要介绍。机器之心对原文进行了编译，数据集下载地址及原文链接请见文中。

项目地址：

wzatv:MIT 新发布大型数据集 ADE20K：用于场景感知、语

数据集下载页面

描述

图像和注解

每个文件夹包含通过场景范畴进行分类的图像。对于每一张图像，目标和部件分割被存储为两种不同的 png 文件。所有的图像和部件示例都被分别注释。

浏览

已注释图像涵盖了 SUN 和 Places 数据集中的场景范畴。下面是一些展示图像、目标分割和部件分割的示例。你也可以通过 ADE20K 浏览器浏览其他图像。

下面的可视化给出了目标、部件和注释示例的数量的列表。树状表只展示了带有超过 250 个注解示例的目标，以及带有超过 10 个注解示例的部件。

一些类别可以既是目标，也是部件。例如，一个「门」可以是一个目标（在一张室内图片中）或者一个部件（当它是车的一个门时）。一些目标经常是部件（比如一条腿、一只手），atv，尽管在某些情况下它们看起来与整体是相互独立的（比如车库中的汽车轮子）；而有些目标则永远不是部件（比如一个人，一辆卡车等等）。依据于部件所属的目标，相同的名称类别（比如门）可对应于若干个视觉范畴。例如，一个汽车的门从视觉上看是不同于一个橱柜的门的。然而它们也共享一些相似的可供性（affordance）。proportionClassIsPart(c) 的值可以用来决定一个分类是否主要作为一个目标或一个部件。当目标不是另一个目标的一个部件时，其分割掩码将出现在 * _seg.png 内。如果分类是一个部件，则分割掩码将出现在 * _seg_parts.png 内。正确检测目标需要区分目标是否表现为独立目标，或者是否是另一目标的一个部件。

评估

使用验证集评估你的算法。你可以使用评估工具包进行场景解析挑战。

数据集偏差

在训练集中：

图像的中值长宽比为 4/3。

图像中值大小为 307200 像素。平均图像大小为 1.3M 像素。

目标分割的模式如下所示，包含四个目标（从上到下）：天空、墙、建筑和地板。

wzatv:MIT 新发布大型数据集 ADE20K：用于场景感知、语

部件分割的模式包含两个分类：窗户和门。

在测试集中：

当简单地使用模式来分割图像时，它平均获得验证集中的每个图像的像素的 20.3％。

在验证集中，IoU（The Intersection over Union）对于表现在分割模式中的四个分类是：

wzatv:MIT 新发布大型数据集 ADE20K：用于场景感知、语

注释噪音分析

为了分析注释的连贯性，我们采用了一个包含从验证集中随机选取的 64 张图像的子集，并要求对其再次进行注释。这些图像中的 20 个通过两个外部注释器进行注释。我们会期望两个注释之间存在一些差别，甚至是在任务被同一个人完成的情况下。通常 82% 的像素获得了相同的标注。下图展示了由同一个注释器完成的一张图片和两个分割。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)