码报:Kaggle获奖者自述比赛求生指南：我们如何“穿越(2)_本港台直播_J2开奖直播

我们在最开始对每个类的含义和特性进行了分析，然而最后探索出来的方案并没有对不同类别进行针对性的处理。虽说如此，下次遇到一个新问题我们仍然会尝试进行分析。

理论上每幅图都拥有一个天气类外加若干个普通类，所以这是一个Multi-Label （多标签）的问题。其中少见普通类比较少，大概四万个样本中有的类甚至不到一百个。

在最后的Submission中，我们要提交一个包含大概六万个样本的标签的csv文件，其中大约四万个用于Public Leaderboard的分数计算，两万个用于Private Leaderboard的分数计算。

官方还提到数据是众包平台上标注的，所以会包含一些错误的标签，因为其中一些图像他们组织里的专家都分不清楚，更不要说众包标注的工人了，所以我们要意识到这是一个富含噪声的数据集。

最后的比赛结果也证实了这一点，因为前63名的分数都在93.0%到93.3%之间，甚至都突破不了94%。这里的分数是指什么呢？请看下一小节。

1.3 评价指标（Evaluation）

弄清了问题的形式，接下来我们可以返回阅读Overview的剩下部分。Evaluation告诉我们这次的评价指标是各个样本F2-score的均值，F2-score的定义如下：

其中p是精度（precision），表示我们预测出来的类出现在标签中的比例；r是召回率（recall），表示标签中出现的类被我们预测出来的比例。F2-score相对偏好召回率，所以在比较不确定的时候，预测多一点可能会比预测准一点来得好。

1.4 奖金（Prize）与比赛时间线（Timeline）

这次比赛的奖金第一名有3万美刀，第二名2万美刀，第三名1万美刀。虽然没有类似Zillow那个一百多万美刀那么惊人，但也是一笔不少的外快了。

比赛开始于4月20日，7月13号则是参加截止日期以及合队截止日期。一般来说，即便你是和几个小伙伴一起参赛，也不要急着太早合队，因为每个队伍每天只有固定的提交次数可用，不合队的话所有人加起来可以获得数倍的提交机会，这对于初期的方案探索是非常有益的。

另外，7月13日也同时是预训练模型声明截止的时间，因为图像类比赛经常会使用ImageNet上预训练过的模型。

为了公平起见，所有人都只能使用讨论区一个置顶帖中声明过的预训练模型，如果选手所使用的预训练模型没在里面，那就要在截止时间前自觉去帖子里添加声明，否则视为作弊。

比赛最后于UTC时间7月20号晚上11点59分结束，对于身在国内的我们来说，这意味着最后一天要通宵陪欧洲人民冲刺到早上八点。

2. 痕迹与工具：讨论区（Discussion）和Kernel区

一个老练的探险队员要善于利用前人留下的信息。我们队里常说，一个能善于使用讨论区、工程能力不差并且有时间精力的人，应该有很大可能性拿到一个银牌。

讨论区里包含着官方的一些申明通知，还有其他队伍的一些经验分享，Kernel区包含了一些公开发布的代码。这些都是所有参赛队伍共享的信息，对于一个新手和后进场的队伍，从这里面获取足够信息可以取得比较好的开端。

此外，常被忽略的一个点是，其他一些已经结束的类似比赛中，也包含了大量对这个比赛有用的信息。

比如，这个比赛是卫星图像的多标签分类比赛，那么其他卫星图像比赛or图像or多标签分类比赛的信息都会对这个比赛有用，这些比赛的讨论区经常包含了大量优秀的解决方案，这对我们后面设计方案会有帮助。

最后要小心的是，讨论区里面的发言也不一定对，Kernel区的代码可能也有些bug，比如这次比赛有一些队伍因为使用了一个有bug的submission生成代码，最后都掉了八九百名，场面十分血腥。

我们从参赛的时候从讨论区获取的一些有用信息如下：

(责任编辑：本港台直播)