如果你走在咖啡馆外面,服务员就知道你每周三早上8点15分一定会准时来这儿,并提前准备好你最喜欢的玛奇朵,这种感觉一定很棒。 这段话写在全球知名预测建模与分析平台 kaggle 的 Talking Data 全球算法大赛介绍页面上。 Kaggle 平台的注册用户现在已经超过60万,来自于全球194个国家,具有各行各业的背景,Kaggle 平台因为赛制的科学和开放的态度,也成为了很多重要数据科学竞赛的支持平台。目前,在 Kaggle 算法众包平台上一共举办了超过1200场比赛,多数比赛来自于工业界,提供了很多数据科学的解决方案。 从另外一个角度而言,这个平台类似于一个江湖武林排行榜,有一些人会借此一战成名。 2012年,美国制药公司默克(Merck)在 Kaggle 上发布了一项为期60天的挑战赛,由参赛者通过15种药物的各种数据预测它们的生物活性,如药物的靶点和非预期靶点(off-target)等等。结果,一个来自加拿大多伦多大学的5人团队 gggg 获得了第一。 如果直接介绍这支队伍,大家可能要翻一个白眼——这是谁?,但是他们背后的人却来头不小。相信很多从事数据科学的人都不陌生,他就是 Geoffrey hinton 。 三大牛 Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 在深度学习领域的地位无人不知,吃瓜群众可以看看,他长这样。
说了这么多,意思就是,kaggle 很牛X,不服就来参加个比赛试试。 在 kaggle 这个牛气的平台上,中国第三方移动数据平台 TalkingData 和机器学习公司 Turi 联合举办了一场全球算法大赛。这场比赛在7月11日开始,9月5日结束。 按照 TalkingData 数据科学部直接负责大赛的科学家路瑶告诉雷锋网(搜索“雷锋网”公众号关注)的信息,原本在国内看上去稀松平常的一个算法大赛,应该是搞不出一个什么大新闻的,但是, 最终的比赛经过账号排重之后,居然有1689支队伍参加,囊括了1961个选手,一共有24000多次提交。 而且,路瑶还盘点了这次大赛上有意思的一些事儿,在勾起大家的兴趣前,先说说这是个什么样的比赛。 牛!感觉不会再爱了 本次大赛的挑战题目是通过移动设备行为数据来预测设备使用者的性别和年龄分组。 大赛提供了约20万用户的脱敏数据,分成了12组,比如,开奖,男性,22到25岁,女性,30到35岁等。同时也提供了用户行为属性,比如,时间点、地理位置、手机品牌、机型、安装或使用了哪些APP等,选手要通过这些信息推测用户属于哪一个组。 嗯,看上去有点难。 大赛的评估方式是——选手需算出用户在不同分组上的概率,一个用户只能在一个分组,理想状态下,如果能算出概率是1,其他为0的话,那么就是没有任何概率损失,但他们的答案一般是在不同的分组上,这个用户以不同的概率属于这个组别,这时就有概率损失,大赛的评估指标就是概率损失。 再看一次,很复杂对不对?好吧,我们可以再复杂一些。
表格里的数据首先是年龄性别分组,每个用户用是一个ID表示。一个用户的行为是在一系列的事件里,每一个事件里的信息包括:ID在什么时间点出现在哪个经纬度上,安装了哪些APP、使用了哪些APP,手机品牌和机型。 当然,APP 的 ID,包括经纬度等都进行了严格和科学的脱敏。 然而,APP 上呈现的只是脱敏后的 ID,选手对 APP 本身没有什么概念,为了让选手更好地解读数据,主办方给 APP 贴了一些标签,比如社交、游戏等,一共有1000多个标签。 围观群众表示,看样子像大海捞针对不对? 可对这些数据的解读仅仅是成功的第一步,下一步是特征工程。 选手提取了哪些特征?比如,用户是在什么时间活跃?休息日还是工作日?白天还是晚上? 数据还包括海外数据,有时差的问题。用户有了轨迹,轨迹分布是怎样?是聚集在某一块?还是聚集在几个点?之间距离有多远?常出现的位置是在中国的东南沿海还是在西北地区?这些地点又有什么样的特性。 另外,安装的APP哪些是安装了但是好长时间没有用?这又能提供什么样的信息。 天了噜,十万个为什么?不可否认的是,这些特征取值很有学问,atv,是取01值还是更具体的权重,完全是个技术活。 路瑶一边介绍,一边冒出“星星眼”。因为在比赛中出现了非常有想象力的做法,而她在做项目过程中根本没有想到! (责任编辑:本港台直播) |