近日,ImageNet 最后一届挑战赛成绩已经公布,多个国内院校和企业在各个比赛项目上取得了非常不错的成绩。奇虎和南京信息工程大学团队分别在定位任务和检测任务上取得了最佳成绩。本文将首先介绍本次的比赛情况,并简要介绍优秀团队的建模方法。同时我们也关注了 WebVision 挑战赛近日公布的结果。 在本次 ImageNet 竞赛中,atv,南京信息工程大学和帝国理工学院的团队 BDAT 获得了目标检测的最优成绩,最优检测目标数量为 85、平均精确率为 0.732227。而在目标定位任务中Momenta和牛津大学的 WMV 团队和 NUS-Qihoo_DPNs (CLS-LOC) 团队分别在提供的数据内和加上额外数据上取得了最优成绩。最后在视频目标检测任务中,帝国理工大学和悉尼大学所组成的 IC&USYD 团队取得了最佳表现。 ImageNet 2017 简介: 这次挑战赛评估了从大规模的图像/影像中进行物体定位/检测的算法。最成功和富有创新性的队伍会被邀请至 CVPR 2017 workshop 进行展示。 1. 对 1000 种类别进行物体定位 2. 对 200 种全标注类别进行物体检测 3. 对 30 种全标注类别的视频进行物体检测 此次大赛是最后一届 ImageNet 挑战赛,并且聚焦于还未解决的问题和未来的方向。此次大赛的重点是: 1)呈现挑战赛的最新结果,包含新的测试器挑战赛(tester challenges),2)通过图像和视频中的物体检测,还有分类(classification)竞赛,回顾识别领域的尖端科技,3)这些方法是如何与工业界采用的计算机视觉领域的最高端技术相关联的——这也是本次挑战赛的初衷之一。4)邀请者对将来仍然存在的挑战提出了自己的看法,不论是从认知视觉,到机器视觉,还是一些其他方面。 目标检测(Object detection) 如下所示,目标检测任务取得最好成绩的是由南京信息工程大学和帝国理工学院组成的 BDAT,该队成员 Hui Shuai、Zhenbo Yu、Qingshan Liu、 Xiaotong Yuan、Kaihua Zhang、Yisheng Zhu、Guangcan Liu 和 Jing Yang 来自于南京信息工程大学,Yuxiang Zhou 和 Jiankang Deng 来自于帝国理工学院(IC)。 该团队表示他们在 LOC 任务中使用了适应性注意力机制 [1] 和深度联合卷积模型 [2,3]。Scale[4,5,6]、context[7]、采样和深度联合卷积网络在 DET 任务中得到了有效的使用。同时他们的得分排名也使用了物体概率估计。 [1] Residual Attention Network for Image Classification[J]. arXiv:1704.06904, 2017. [2] Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778. [3] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning[C]//AAAI. 2017: 4278-4284. [4] U-net: Convolutional networks for biomedical image segmentation[J]. arXiv:1505.04597, 2015. [5] Feature pyramid networks for object detection[J]. arXiv:1612.03144, 2016. [6] Beyond skip connections: Top-down modulation for object detection[J]. arXiv:1612.06851, 2016. [7] Crafting GBD-Net for Object Detection[J]. arXiv:1610.02579, 2016. 任务 1a:使用提供的训练数据进行目标检测 根据检测出的目标数量排序
根据平均准确率排序
而在目标检测任务中新加坡国立大学(NUS)和奇虎 360 组成的 NUS-Qihoo_DPNs (DET) 也获得了不错的成绩。 他们在基于 Faster R-CNN 的目标检测任务中,采用了一个包含全新双路径拓扑的双路径网络(DPN/Dual Path Network)。DPN 中的特征共享机制和探索新特征的灵活性被证明在目标检测中有效。特别地,研究人员采用了若干个 DPN 模型——即 DPN-92、DPN-107、DPN-131 等——作为 Faster R-CNN 框架中的中继特征学习器(trunk feature learner)和头分类器(head classifier)。他们只使用最多 131 层的网络,因为在大多数常用的 GPU 内,它易于训练和适应,且性能良好。对于区域提案生成,利用低级细粒度特征取得了有效的 proposals 召回。进而,通过在分割成检测框架中采用扩展卷积,他们合并了有益的语境信息。在测试期间,他们设计了一个类别加权策略,以探索不同类别的专家模型,并根据多任务推断把权重用到不同的专家。除此之外,他们在图像分类任务中采用了预训练的模型以提取整体语境信息,这可在整体输入图像中为探测结果的推理提供有益的线索。 任务 1b:使用额外的训练数据进行目标检测 根据检测出的目标数量排序
根据平均准确率排序
目标定位(Object localization) 在给定训练数据进行分类和定位的任务中,WMW 取得了优异的成绩,分类误差率是最低的。 (责任编辑:本港台直播) |