早上8点一过,我们刷新出Private LB的排名是第六,当时就懵逼了。虽然我们早就知道会存在抖动,选择的Submission也是在验证集和Public LB上表现都比较好的,但抖动还是比我们预计的要大得多。 最后几天的提交基本在0.93430到0.93450之间,我们预估抖动可能会比0.0002大一点,因为Private LB只有两万样本,但抖动在我们的Submission中的是0.001左右,大概我们预估的5倍左右。 事实上,从BreakfastPirate的一个分析贴看,这次比赛Top 10%的队伍的排名抖动程度(即Public LB和Private LB的差异)在整个Kaggle的历史上也可以排上前十,非常夸张。 我们试着对这个结果进行了分析,下面是赛后对我们Submission进行分析画的散点图。 说明如下: 横轴是Public LB Score, 纵轴是Private LB Score。 橘色的点代表单模型提交,蓝色、红色、黄绿色的点代表多模型Ensemble的提交,红色的点是我们最后选中的两个Submission,Kaggle会根据每个参赛队伍选中的两个Submission中Private LB分数最高的,来计算最终排名。黄绿色的点是比赛中因为提交次数限制没有提交、赛后才提交的Submission。 蓝色斜线是对线性拟合曲线。 铜色横线以上是铜牌区,银色横线以上是银牌区,金色横线以上是金牌区,绿色横线以上是奖金池。 可以看到,我们最后一周提交的Ensemble模型都在金牌区以内,甚至有3个单模型也进入其中,分别是ResNet50、ResNet101和ResNet152。我们最后一段时间有很多好的单模型没有提交,它们中应该也有可以进入金牌区的。 我们赛中的提交有6个进入奖金池,其中最高一个的F2-Score为0.93322,比Private LB第一名bestfitting最后的Submission 0.93318还高一点,当然我们相信其他队伍也应该和我们一样,有一些更好的Submission但是没有被选中。赛后提交的4个Submission中也有2个进入奖金池。 上图可以看出Public LB到Private LB的抖动大概在0.001左右。 从Private LB第一的bestfitting的赛后方案总结看出,他对比赛的Public LB到Private LB可能的抖动(Shake up)使用模拟进行了估计,得出这个F2-Score的抖动大概在0.001-0.0025,而Public LB前面的队伍的差别只有0.0005-0.001,所以最后的排名出现较大抖动也十分正常。从最后的结果看来他的估计也是挺准的。 造成这种抖动的原因应该是来着数据集中一些难以明确分类的样本,也就是Data部分提到的即使是官方组织内部的专家也难以区分的样本,比如河流和道路有时候完全分不清楚。这类样本的标注基本是随机的,让同一个人重新标注都可能标得不同。 冠军选手bestfitting的这种模拟抖动分析十分值得我们学习,因为这一方面可以避免自己过分关注微小的提升,另一方面,如果已经知道随机抖动程度甚至都超过了前几名之间的细微差距,那我们最终选两个Submission时就不应该去理会Public LB最好的那个,而是先选一个稳妥方案的Submission,再从其他不错的Submission中随机选一个,把胜负交给伟大的随机性来决定谁才是天选之人。 5. 队伍成员介绍 我们队伍总共6个人,都是中山大学潘嵘老师CIS实验室的研究生(这也是我们队名叫SYSU CISLab的原因),刘思聪、黄正杰、郑华滨、张晋斌是研二的学硕,吴晓晖和蒋礼斌是研一的专硕,每个人的贡献如下: 刘思聪:主要负责模型设计、查找有用信息、队内任务分配协调。设计了单模型训练的基本流程,包括数据增强的类型和使用方式,发现Loss和F2-Score的相关性在Ensemble阶段与单模型阶段的不同,Ensemble阶段的Attention Stacking的设计实现,单模型的调优,多次随机搜索F2-Score阈值的方案设计。 黄正杰:主要负责K折交叉验证设计,实验记录的分析和管理,Bagging Ensemble Selection的实现,Attention Stacking方案一的实现,单模型的调优,尝试使用进化计算搜索F2-Score的阈值。 郑华滨:提出第二轮训练猛降50倍学习率的做法并验证其有效性。实现了F2-Score阈值搜索函数的GPU版本,大大加速了Ensemble阶段根据F2-Score做early stopping的策略。设计实现了Attention Stacking方案二的设计和实现。对比了测试集F2-Score阈值的平均方案与拼接方案的效果差异。 张晋斌:查找信息,探索其他可能的数据增强方法,尝试Ridge Regression的Stacking。 吴晓晖:单模型调优,编写Leaderboard监控程序,赛后数据的分析和探索,多次随机搜索F2-Score阈值的方案实现与探索。 (责任编辑:本港台直播) |