报码:【j2开奖】寻找全球最强算法!通过手机安装的 App,从二十万人中挑出你(2)_本港台直播_J2开奖直播

　　当你预测出结果之后，结果是不是可以作为特征反馈到模型？比如，预测年龄和性别的分组，性别相对是好预测的，准确率高一些，预测后把性别特征返回来是不是可以提高年龄的预测？年龄准确率会低一些，但是一些特殊的年龄段特征比较明显。如果把这些找出来之后再返回到模型里面，是不是也能提高整体的结果？

　　做完特征工程之后，进入到调模型的环节，这也是考验数据科学家经验和技巧的活。单一模型下调参数的时候，最简单的初始参数怎么选？是给一个随机值，还是给一个特别值？对于收敛速度可能会有很大的影响。

　　在模型集成上，学问就更多了。以神经网络为例，在神经网络里设计神经元，要知道每一层有多少个、有多少层，在模型集成里面也要有类似的思想。这些模型分成几层，谁和谁是并联、谁和谁是串联关系，如果是串联关系，下一层要处理上一层什么样的信息，是直接处理结果，还是误差或是什么。

　　有了好模型、好特征，提交了结果，在排名上很靠前，是不是这个事就搞定了，就可以拿到奖金了？

　　呵呵哒，真不一定。

　　还有一个大敌叫过拟合。

　　过拟合的方法在特定数据集里会表现非常好，但是这个数据集稍微一变，模型性能就迅速下降。

　　此次比赛分测试集和训练集，训练集是把所有的信息都告诉了选手，然后在测试集里要推测分组。

　　选手可以看到的是提交结果后的公开榜单，但私密榜单却只有管理员能看到，但比赛结果却是由私密榜单决定的，公开榜单仅供参考。

　　公开榜单的测试集只包括了1/4~1/3的数据，而 Kaggle 又不限制提交次数，如果你在公开榜单排名靠前，那么呵呵，有可能在私密榜单排名很惨。

报码:【j2开奖】寻找全球最强算法!通过手机安装的 App,从二十万人中挑出你

　　如何解决这个问题，Kaggle 的老司机告诉你，永远要做交叉验证！！！！拿小本本记下来！！

　　迄今为止，虽然大赛还未正式公布获奖名单，但是在kaggle该大赛主页上，私密榜单已经出炉！我们来看一下——

报码:【j2开奖】寻找全球最强算法!通过手机安装的 App,从二十万人中挑出你

　　这次比赛也有几个有趣的点，可以简单扒一扒！

　　1.TalkingData 首席数据科学家张夏天告诉雷锋网，虽然数据量比较小，只有约20万组，但是却是“稀疏”数据，即拿来真实数据进行脱敏后，有些数据可能维度不齐全，相比于一些比赛提供的标签齐全的数据，意思是， 难度加大，你开心就好。

　　2.在 Kaggle 社区，第一次出现 TalkingData 中国的数据，上面的大神对此很感兴趣，甚至把kaggle 排行榜上所谓的“上古神兽”炸出来不少，Kaggle 比较牛的那些人玩的时间长了，兴趣不大，已经不太爱在平台上出现。Kaggle榜单前10名里有7名参加TalkingData 的比赛，前20名中有14名。 是的，中国就是个神秘的国度……

　　3.最后有70多个国家的参赛选手提交了结果，选手最多的不是中国……是美国。那第二呢？第二依然不是中国，是印度， 第三才是中国，含台湾、香港地区，第四是俄罗斯，第五是英国。

　　4.在 kaggle 的 TalkingData 大赛社区里，由于数据来自中国，很多选手需要讨论中国国情，最热衷给大家科普中国国情特征的是一个 法国兄弟……

(责任编辑：本港台直播)