所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 日前接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。”他曾被评为 2013 年《麻省理工科技评论》全球35岁以下青年科技创新人士,而 Kaggle 在今年加入 Google,更是近年创业领域的成功范例。 怎么出考题? 然而,想要参与到 Kaggle 的比赛中却并非易事,因为一道道挑战题目都难度极高,不少中国的数据专家都参加过这些竞赛,而且成绩都非常好。 在 Kaggle 选手排行榜上(依照选手比赛成绩),目前排名全球第五的 Eureka 就是来自中国。据了解,在 Kaggle 内部有一个依照比赛成果的国家排名,中国就在前三名之内。 不过,在背后设计竞赛考题的人又是谁?DT 君独家专访了 Kaggle 数据科学家甘志雯(Wendy Kan)。 图丨甘志雯 一头长直发,作风干练,是甘志雯给人的第一眼印象。从台湾的清华大学电机工程硕士毕业后,她跑到美国继续念书,而且还转换专业,到德州大学奥斯丁分校攻读生物医学工程博士,她笑说:“刚去美国时,考试都要带电子辞典”,不过尽管初期辛苦,但她始终很清楚知道自己的目标:“换专业是要让自己变得更强,被丢到全新的领域就只能往前冲。” 博士班毕业后,甘志雯先进入 GE 旗下专门负责研发跟创新的 GE Global Research 担任生物医学工程师,帮忙设计公司内部使用的一套软件,为从事癌症研究的同事们提供更好的影像辨识软件,来侦测癌症细胞不同阶段的变化。之后,她又进入知名生物技术公司基因泰克负责后端软件开发,直到三年多年她加入了 Kaggle,成为 Kaggle 的数据科学家。 图丨甘志雯在演讲 Kaggle 的数据科学家要做什么?“我的工作就是负责设计算法的比赛,把客户给的数据快速整理成可以上架到 Kaggle 平台,简单来说就是出比赛考题”,甘志雯简单扼要地说明她的工作。乍听之下好像很简单,但其实却是冗长的过程。 举例来说,当企业或机构单位想要在 Kaggle 举办比赛,会先接触到 Kaggle 类似产品经理角色的人员展开初步沟通,合作共识达成后,就会开始由数据科学家接手。他们与企业沟通,理解对方想要解决什么样的问题、拥有什么样的数据、怎么衡量模型的效益、评价指标有哪些等等。 所以客户会将庞大的数据交给甘志雯,她必须在很短的时间内熟悉这些数据,并且设计出适合这份数据的比赛规则和目标。 但她经常会遇到客户说:“这些数据很机密,但我又很想办这比赛,怎么办?”所以就要得帮他们想出适当的方法。直到双方都认同后,就会把数据整合为比较干净的模式,也就是数据清理(Data Cleansing),去除错误或不一致的数据。最后再把这些数据放到 Kaggle 平台上让使用者取用。一般 Kaggle 上的比赛赛程最多是 2~3 个月,参赛者必须在期间内递交自己设计的算法。 但因为客户来自各行各业,每一家公司的数据政策跟技术能力落差非常大。一般来说,如果客户技术水准高,有很强的数据科学家,甘志雯就会提供 Kaggle 的准则请对方把数据弄干净,但有些客户没有这些能力,这时就得花费许多时间协助,经常得来来回回沟通好几次。据了解,如果客户需要 Kaggle 人员帮忙清理数据,一小时计费 200~300 美元。 “这工作就很像去别人家,把他们的衣柜搞清楚,有人的衣柜很整齐,有人乱七八糟,Kaggle 协助你把前面一半到三分之二的路走好。”甘志雯打了一个有趣的比方。所以数据科学家不只是懂工具、懂逻辑,好的沟通能力同样很重要,而且投入时间并不是每次都能开花结果。 (责任编辑:本港台直播) |