Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林 2017-08-11 13:31 来源:量子位 原标题:Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林 作者:刘思聪 中山大学|计算机科学与技术研究生 来源自知乎专栏:AI带路党 量子位 已获授权编辑发布 大家好,我是思聪 · 格里尔斯,我将向您展示如何从世界上某些竞争最激烈的比赛中拿到金牌。我将面临一个月的比赛挑战,在这些比赛中缺乏正确的求生技巧,你甚至拿不到铜牌。这次,我来到了亚马逊热带雨林。 当我和我的队友们进入这片雨林的时候,这场长达三个月的比赛已经进行了两个月,想要弯道超车,后来居上,那可不是件容易的事。我们最后在比赛结束的时候,获得了Public Leaderboard第一, Private Leaderboard第六的成绩,斩获一块金牌。这个过程中,我们设计并使用了一套简洁有效的流程,还探索出了一些略显奇怪的技巧。 使用这套流程,我们从Public Leaderboard一百多名起步,一路杀进金牌区,一直到比赛结束前,占据Public Leaderboard榜首数天,都没有遇到明显的阻力。 在这篇文章里,我不仅会介绍这个流程本身,还会把我们产生这套流程的思路也分享出来,让大家看完之后,下次面对一个新问题,也知道该如何下手。 在文章的结尾,我还会讲一讲我们比赛最后一夜的疯狂与刺激,结果公布时的懵逼,冷静之后的分析,以及最后屈服于伟大的随机性的故事。 目录 初探雨林:概述(Overview)与数据(Data) 痕迹与工具:讨论区(Discussion)和Kernel区 探险开始:解决方案的规划和选择 学习,奋斗,结果与伟大的随机性 队伍成员介绍 1. 初探雨林:概述(Overview)与数据(Data)探险的第一步是要弄清楚问题的定义和数据的形式,这部分看起来会比较繁琐,但是如果想要走得远,避免落入陷阱,这一步还是比较值得花功夫的,所以请大家耐心地看一下。如果是已经参加过这个比赛的读者,可以直接跳过这个部分。 我们先看一下这个比赛的标题: Planet: Understanding the Amazon from Space Use satellite data to track the human footprint in the Amazon rainforest 翻译一下就是: Planet(举办比赛的组织名):从太空中理解亚马逊 使用卫星数据来跟踪人类在亚马逊雨林中的足迹 看来这是一个关于亚马逊雨林的卫星图像比赛,为了进一步了解问题,我们需要阅读的是比赛的Overview和Data两个部分。 1.1 描述(Deion) Overview的Deion(描述)部分告诉了我们主办方的意图,原来是为了从卫星图片监控亚马逊雨林的各种变化,以便当地政府和组织可以更好保护亚马逊雨林。看我发现了什么,这个Overview的尾部附带有一个官方提供的ipython notebook代码的链接。 Overview地址: https://www.kaggle.com/c/planet-understanding-the-amazon-from-space ipython notebook代码地址: https://www.kaggle.com/robinkraft/getting-started-with-the-data-now-with-docs 这个ipython notebook有不少信息量,包含对数据的读取,探索,相关性分析,可以大致让我们对数据有一个基本的感觉,并且可以下载下来进一步分析,可以省上不少功夫。 如果官方没有提供这样一个notebook, Kernel区一般也会有人发出自己的一些分析,实在没有最好也自己做一下这个步骤,因为这个可以为后面的一些决策提供信息。 1.2 数据(Data) 然后我们可以先跳过Overview的其他部分,去看一下Data部分。Data部分一般提供数据的下载和说明,先把数据点着下载,然后仔细阅读说明。 Data地址: https://www.kaggle.com/c/planet-understanding-the-amazon-from-space/data 其中训练集大概有四万张图像,测试集大概有六万张图像。数据说明包括了数据的构成和标签的来源。我们可以先看一下这张图: 这次比赛中的每个图像样本都是256*256像素,并且每个像素宽约对应地面的宽度大约是3.7m。每个样本都有jpg和tif两种格式,tif好像是比正常的RGB通道多了一个红外线通道,嗯,可能会有用。 数据的标签有17个类,其中4个天气类,7个常见普通类,以及6个少见普通类。 天气类包括:Clear,Partly Cloudy,Cloudy,Haze。其中只要有 Cloudy的就不会有其他类别(因为被云覆盖住了什么都看不到)。 常见普通类包括:Primary Rain Forest,Water (Rivers & Lakes),Habitation,Agriculture,Road,Cultivation,Bare Ground。 少见普通类包括:Slash and Burn,Selective Logging,Blooming,Conventional Mining,”Artisinal” Mining,Blow Down。 普通类描述的是丛林中出现的各种景观,包括河流、道路、耕种用地、采矿基地等等。 下面是一些样本的示例图,图中用红色字体打上了类别信息: 官方还附带了这些类别的说明和相关新闻报道,其中类别的说明最好读一下,有助于对任务的理解。 (责任编辑:本港台直播) |