当你预测出结果之后,结果是不是可以作为特征反馈到模型?比如,预测年龄和性别的分组,性别相对是好预测的,准确率高一些,预测后把性别特征返回来是不是可以提高年龄的预测?年龄准确率会低一些,但是一些特殊的年龄段特征比较明显。如果把这些找出来之后再返回到模型里面,是不是也能提高整体的结果? 做完特征工程之后,进入到调模型的环节,这也是考验数据科学家经验和技巧的活。单一模型下调参数的时候,最简单的初始参数怎么选?是给一个随机值,还是给一个特别值?对于收敛速度可能会有很大的影响。 在模型集成上,学问就更多了。以神经网络为例,在神经网络里设计神经元,要知道每一层有多少个、有多少层,在模型集成里面也要有类似的思想。这些模型分成几层,谁和谁是并联、谁和谁是串联关系,如果是串联关系,下一层要处理上一层什么样的信息,是直接处理结果,还是误差或是什么。 有了好模型、好特征,提交了结果,在排名上很靠前,是不是这个事就搞定了,就可以拿到奖金了? 呵呵哒,真不一定。 还有一个大敌叫过拟合。 过拟合的方法在特定数据集里会表现非常好,但是这个数据集稍微一变,模型性能就迅速下降。 此次比赛分测试集和训练集,训练集是把所有的信息都告诉了选手,然后在测试集里要推测分组。 选手可以看到的是提交结果后的公开榜单,但私密榜单却只有管理员能看到,但比赛结果却是由私密榜单决定的,公开榜单仅供参考。 公开榜单的测试集只包括了1/4~1/3的数据,而 Kaggle 又不限制提交次数,如果你在公开榜单排名靠前,那么呵呵,有可能在私密榜单排名很惨。
如何解决这个问题,Kaggle 的老司机告诉你,永远要做交叉验证!!!!拿小本本记下来!! 迄今为止,虽然大赛还未正式公布获奖名单,但是在kaggle该大赛主页上,私密榜单已经出炉!我们来看一下——
这次比赛也有几个有趣的点,可以简单扒一扒! 1.TalkingData 首席数据科学家张夏天告诉雷锋网,虽然数据量比较小,只有约20万组,但是却是“稀疏”数据,即拿来真实数据进行脱敏后,有些数据可能维度不齐全,相比于一些比赛提供的标签齐全的数据,意思是, 难度加大,你开心就好。 2.在 Kaggle 社区,第一次出现 TalkingData 中国的数据,上面的大神对此很感兴趣,甚至把kaggle 排行榜上所谓的“上古神兽”炸出来不少,Kaggle 比较牛的那些人玩的时间长了,兴趣不大,已经不太爱在平台上出现。Kaggle榜单前10名里有7名参加TalkingData 的比赛,前20名中有14名。 是的,中国就是个神秘的国度…… 3.最后有70多个国家的参赛选手提交了结果,选手最多的不是中国……是美国。那第二呢?第二依然不是中国,是印度, 第三才是中国,含台湾、香港地区,第四是俄罗斯,第五是英国。 4.在 kaggle 的 TalkingData 大赛社区里,由于数据来自中国,很多选手需要讨论中国国情,最热衷给大家科普中国国情特征的是一个 法国兄弟…… (责任编辑:本港台直播) |