本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【ImageNet最后的冠军】颜水成:像素级标注数据集(2)

时间:2017-08-17 16:48来源:本港台直播 作者:本港台直播 点击:
颜水成 :计算机视觉竞赛有很长的历史,PASCAL VOC进行了八年,ImageNet也是八年。每个比赛都承载了大家对技术发展的期望,同时大家也会逐渐发现这些数

颜水成:计算机视觉竞赛有很长的历史,PASCAL VOC进行了八年,ImageNet也是八年。每个比赛都承载了大家对技术发展的期望,同时大家也会逐渐发现这些数据库的局限性。

2005-2012年,PASCAL VOC非常火,但是只有二十类,2010年开始的ImageNet有一千类,于是研究者逐步转向ImageNet。

ImageNet数据库现在最大的挑战是,在分类中每一个图像中只标注了一个主要的物体,所以ImageNet主要是做单个物体的分类和定位。这不符合现实世界图像的分布特点,存在局限性,这是ImageNet结束比赛的一个重要原因。但是ILSVRC比赛里面的物体检测这个任务,本身还没有终结,后面还会也应该继续下去。

我们需要像某些多标签的多媒体数据集那样的数据集,更符合真实图像的情况。

新智元:多label的数据集,现在有哪些?

颜水成:比较大的有来自新加坡国立大学的NUS-WIDE。但是label也不多,只有81个。

新智元:ImageNet为什么是单label?

颜水成:工作量的问题,多label意味着每个图像对多个label要做校验。但是单label只需要判断yes or no。

假如是个一千个label的多标签数据集,你的校验就是一千倍,否则依然会存在错误。

新智元:未来计算机视觉的竞赛还应该往哪方面发展呢?

颜水成:在我个人看来,图像的竞赛还是像素级别的分类更好。如果图像分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。

ImageNet去年有Scene Parsing任务,但遗憾的是今年没继续。如果将来把图像分割作为核心任务,再做任何其它任务就好办多了。

真正好的分割是全景的分割。所谓全景分割,就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多,标注量也非常大。

希望在合适的时间点有大公司或NPO来做这样的事情。现在有新的数据集做语义级别分析或者局部关联分析,但这些数据库存在内在的局限性,最终还是要做像素级别。

DPN摘下最后的“皇冠”,本质是ResNet和DenseNet思想的结合

“ResNet可以解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是...”

新智元:本届比赛中,你所在团队使用了DPN技术,这种技术除了用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务,是否适合用其他任务或者应用上?

颜水成:计算机视觉领域的基础模型至关重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及这次的DPN。不仅仅限于这三大任务,只要计算机视觉相关的并且用深度学习的都可受益于这些基础模型。

新智元:论文中说ResNet是DenseNet的一个特例,而DPN结合了两种模型的思想,DPN是否也是一种DenseNet的特例呢?

颜水成:这个问题非常有意思。ResNet可解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是,把ResNet当成DenseNet特例的时候,两者是有错位的。

ResNet的block和DenseNet的block不是对齐的,而是错位对应的。把ResNet和DenseNet融合在一起的话,它们错位了。我和CHEN Yunpeng都仔细分析过,无法把新的DPN再解释成是原来的DenseNet的结构。

其内在的合理性我们用三角形来做个类比,DenseNet可以看成等边直角三角形,ResNet是其中一个方向的特例。如果合适地拼接,可以组成另一个等边三角形,但也可能拼接成一个正方形。DPN属于后者,由于错位拼接,最后的模型不再是DenseNet。

下一个ImageNet:根本上还是需要有一个像素级标注的数据集

“涉及到语义,ground-truth往往不reliable,很多标注达不成共识,这让研究的难度增加很多。”

新智元:ImageNet已经告别,现在涌现了 Visual Genome、Web Vision这样的结合语义和知识的图像数据集,您认为是否意味着语义和知识的理解是下一个趋势?视觉和自然语言处理是否会殊途同归?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容