我们在最开始对每个类的含义和特性进行了分析,然而最后探索出来的方案并没有对不同类别进行针对性的处理。虽说如此,下次遇到一个新问题我们仍然会尝试进行分析。 理论上每幅图都拥有一个天气类外加若干个普通类,所以这是一个Multi-Label (多标签)的问题。其中少见普通类比较少,大概四万个样本中有的类甚至不到一百个。 在最后的Submission中,我们要提交一个包含大概六万个样本的标签的csv文件,其中大约四万个用于Public Leaderboard的分数计算,两万个用于Private Leaderboard的分数计算。 官方还提到数据是众包平台上标注的,所以会包含一些错误的标签,因为其中一些图像他们组织里的专家都分不清楚,更不要说众包标注的工人了,所以我们要意识到这是一个富含噪声的数据集。 最后的比赛结果也证实了这一点,因为前63名的分数都在93.0%到93.3%之间,甚至都突破不了94%。这里的分数是指什么呢?请看下一小节。 1.3 评价指标(Evaluation) 弄清了问题的形式,接下来我们可以返回阅读Overview的剩下部分。Evaluation告诉我们这次的评价指标是各个样本F2-score的均值,F2-score的定义如下: 其中p是精度(precision),表示我们预测出来的类出现在标签中的比例;r是召回率(recall),表示标签中出现的类被我们预测出来的比例。F2-score相对偏好召回率,所以在比较不确定的时候,预测多一点可能会比预测准一点来得好。 1.4 奖金(Prize)与比赛时间线(Timeline) 这次比赛的奖金第一名有3万美刀,第二名2万美刀,第三名1万美刀。虽然没有类似Zillow那个一百多万美刀那么惊人,但也是一笔不少的外快了。 比赛开始于4月20日,7月13号则是参加截止日期以及合队截止日期。一般来说,即便你是和几个小伙伴一起参赛,也不要急着太早合队,因为每个队伍每天只有固定的提交次数可用,不合队的话所有人加起来可以获得数倍的提交机会,这对于初期的方案探索是非常有益的。 另外,7月13日也同时是预训练模型声明截止的时间,因为图像类比赛经常会使用ImageNet上预训练过的模型。 为了公平起见,所有人都只能使用讨论区一个置顶帖中声明过的预训练模型,如果选手所使用的预训练模型没在里面,那就要在截止时间前自觉去帖子里添加声明,否则视为作弊。 比赛最后于UTC时间7月20号晚上11点59分结束,对于身在国内的我们来说,这意味着最后一天要通宵陪欧洲人民冲刺到早上八点。 2. 痕迹与工具:讨论区(Discussion)和Kernel区 一个老练的探险队员要善于利用前人留下的信息。我们队里常说,一个能善于使用讨论区、工程能力不差并且有时间精力的人,应该有很大可能性拿到一个银牌。 讨论区里包含着官方的一些申明通知,还有其他队伍的一些经验分享,Kernel区包含了一些公开发布的代码。这些都是所有参赛队伍共享的信息,对于一个新手和后进场的队伍,从这里面获取足够信息可以取得比较好的开端。 此外,常被忽略的一个点是,其他一些已经结束的类似比赛中,也包含了大量对这个比赛有用的信息。 比如,这个比赛是卫星图像的多标签分类比赛,那么其他卫星图像比赛or图像or多标签分类比赛的信息都会对这个比赛有用,这些比赛的讨论区经常包含了大量优秀的解决方案,这对我们后面设计方案会有帮助。 最后要小心的是,讨论区里面的发言也不一定对,Kernel区的代码可能也有些bug,比如这次比赛有一些队伍因为使用了一个有bug的submission生成代码,最后都掉了八九百名,场面十分血腥。 我们从参赛的时候从讨论区获取的一些有用信息如下: (责任编辑:本港台直播) |