本次 ImageNet 竞赛是最后一次,但同时 WebVision 近日也发布了其视觉竞赛的结果。相对于人工标注的 ImageNet 数据集,WebVision 中的数据拥有更多的噪声,并且它们更多的是从网络中获取,因此成本要比 ImageNet 低廉地多。正如近日谷歌发表的论文「Revisiting Unreasonable Effectiveness of Data in Deep Learning Era」,他们表示随着计算力的提升和模型性能的大大增强,我们很有必要构建一个更大和不那么标准的数据集。在该篇论文中,谷歌发现巨型非标准数据集(带噪声)同样能令模型的精度达到目前最好的水平,那么 ImageNet 下一步是否会被 JFT-300M 这样的数据集替换?因此我们很有必要关注能在噪声数据下学习到很好模型的竞赛——WebVision。
近日,WebVision 也发布了其视觉竞赛的结果,Malong AI Research 获得了图像分类任务的最优成绩。 WebVision 2017 挑战赛结果 WebVision 图像分类任务
Pascal VOC 迁移学习任务
获胜团队 Malong AI Research: 我们使用半监督学习方法解决如何利用有噪声的不均衡数据训练大规模深度神经网络的问题。我们首先使用聚类算法将训练数据分成两部分:干净数据和噪声数据,然后使用干净数据训练一个深度网络模型。之后,我们使用所有数据(包括干净数据和噪声数据)来训练第一个模型(干净数据训练出的模型)上的网络。值得注意的是,我们在该网络的原始卷积层上使用了两个不同大小的卷积核(5,9)。至于训练,我们在干净数据上进行数据平衡,并设计了一个新的自适应 lr 下降系统,该系统根据噪声的类型(干净数据和噪声数据)略有不同。 WEBVISION 数据集 WebVision 数据集的设计是用来促进从嘈杂互联网数据中学习视觉表征的相关研究的。我们的目的是使深度学习方法从巨大的人工劳力(标注大规模视觉数据集)中解脱出来。我们把这个大规模网络图像数据集作为基准来发布,以推进在网络数据中进行学习的相关研究,包括弱监督视觉表征学习(weakly supervised visual representation learning),视觉迁移学习(visual transfer learning),文本与视觉(text and vision)等等(详见 WebVision 数据集的推荐环境配置)。 WebVision 数据集包含超过 24 万张的图像,它们是从 Flickr 网站和谷歌图像搜索引擎中爬取出来的。与 ILSVRC 2012 数据集相同的 1000 张图像用于查询(query),因此可以对一些现有方法直接进行研究,而且可以与在 ILSVRC 2012 数据集中进行训练的模型进行比较,还可以使在大规模场景中研究数据集偏差(dataset bias)的问题成为可能。伴随那些图片的文本信息(例如字注、用户标签或描述)也作为附加的元数据信息(meta information)来提供。提供一个包括 50,000 张图像(每一类别 50 张)的验证数据集以推进算法级研发。一个简单基准的初级结果展示了 WebVision 在一些视觉任务中是能够学习鲁棒性表征的,其性能表现与在人工标注的 ILSVRC 2012 数据集中学习的模型相类似。 数据集详情 数据统计 在我们的数据集中,每一类别的图像数量如图 1 所示,从几百到超过 10,000。每一类别中的图像数量依赖于:1)每一类别中的同义词集合生成的查询指令(query)的数量,2)Flickr 和谷歌的图像的有效性。
图 1:WebVision 数据集中每一类别的图像数量 简易基准评估 我们使用一个简单的基准对用于学习视觉表征的网络数据容量进行了调查研究。我们把来自 Flickr 和 Google 的已查询图像作为我们的训练数据集,并且从零开始在这一训练集上对 AlexNet 模型进行训练。然后我们在 Caltech-256 数据集和 PASCAL VOC 2007 数据集的图像分类任务中对学习后的 AlexNet 模型进行了评估,并且也在 PASCAL VOC 2007 数据集的物体识别相关任务中做了检测。 图像分类 (责任编辑:本港台直播) |