【Kaggle冠军分享】图像识别和分类竞赛,数据增强及优化算法 2017-07-09 14:51来源:新智元 原标题:【Kaggle冠军分享】图像识别和分类竞赛,数据增强及优化算法 1 新智元编译 来源:blog.kaggle.com 编译:贾岳鹏 【新智元导读】Kaggle 海洋鱼类识别和分类竞赛冠军团队技术分享:如何设计鲁棒的优化算法?如何分析数据并做数据增强?技术细节包括使用不同船只的图像进行验证,以及如何处理夜视图像。 今年,直播,Kaggle 社区举办了大自然渔业监测大赛(Nature Conservancy Fisheries Monitoring competition),征召参赛者开发能够自动对渔船捕捞的海洋生物种类进行检测和分类的算法。 非法捕鱼等行为对海洋生态系统构成了威胁。这些算法将有助于增强大自然保护协会分析摄像机监控系统数据的能力。在下面这篇获奖者访谈中,冠军队伍“Towards Robust-Optimal Learning of Learning”(Gediminas Pekšys,Ignas Namajūnas,Jonas Bialopetravičius)分享了他们算法的技术细节,比如如何使用不同船只的图像进行验证,以及如何处理夜视图像。 由于比赛数据集中的照片不能公开,团队招聘了平面设计师 Jurgita Avišansytė 为此博文制作了插图。 团队背景 在进入这个挑战赛之前,你的背景是什么? P:剑桥数学毕业,做了大约 2 年的数据科学家/顾问,约 1.5 年的软件工程师,作为监控应用研究工程师大约有 1.5 年的物体检测研究和框架开发经验。 N:数学本科,计算机科学硕士和 3 年研发工作,在 9 个月的监控项目研究负责人经验。 B:软件工程学士,计算机科学硕士,atv,6 年计算机视觉和机器学习专业经验,目前正在研究天体物理学,对应用深度学习方法十分感兴趣。 有什么以前的经验或领域知识帮助你在这场比赛中取得了成功? P:我上次参加 Kaggle 比赛获得的工作和研究经验帮助了我参加这次竞赛,也即在第一周的时间里建立合理的验证方法。 N:我在大学学习(主要是自学)、研发的工作经验,还有前两次 Kaggle 计算机视觉竞赛的经验,以及每天阅读 arXiv 论文。 B:我的硕士论文是关于深度学习的,我也有一些 Kaggle 竞赛经验。我在工作中定期解决计算机视觉问题。 你是如何开始参与 Kaggle 竞赛的? P:我第一次听说 Kaggle 是在我成为数据科学家第一年的时候,但在我转为从事计算机视觉之后几年后才开始考虑参赛。Kaggle 竞赛能让人专注于稍微不同的问题/数据集,并有效地验证不同的方法。 N:我曾经喜欢参与 ACM ICPC 等竞赛。我没有取得特别值得一提的成就,但作为维尔纽斯大学团队成员参加国际比赛是我的学生生涯中最好的体验。在开始从事机器学习和计算机视觉工作后,我喜欢上了长期的挑战赛,所以 Kaggle 再适合不过。 B:我喜欢解决机器学习问题,而 Kaggle 正是做这个的平台。 是什么让你决定参赛的? P:我想为计算机图像检测和分类做更多的堆叠和定制模型的实验。我还想要比较最近的检测框架/体系结构。 N:对象检测是我的强项之一,这个问题看上去很有挑战性,因为成像条件“in the wild”程度很高。 B:主要是因为这场比赛看起来难度很高,特别是缺乏好的数据。 技术细节及思路解析 你们从以前的研究或比赛中借鉴了什么方法吗? 借鉴了 Faster R-CNN,它在以前参赛中表现很好,我们也有使用和修改它的经验。 使用了什么监督学习方法? 我们主要使用带 VGG-16 的 Faster R-CNN作为特征提取器,其中一个模型是用的带 ResNet-101 的 R-FCN。 数据预处理和数据增强是怎么做的? 大多数用于训练模型的增强管道都是相当标准的。随机旋转,水平翻转,模糊和尺度变化我们都用了,这些方法也都提高了验证分数。然而,最重要的两件事情是使用夜视图像和图像颜色。 (责任编辑:本港台直播) |