本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:独家专访Kaggle华人“主考官”甘志雯(3)

时间:2017-08-07 00:26来源:报码现场 作者:www.wzatv.cc 点击:
前阵子就发生了一个案例,一个关注海洋生态的环保机构找上 Kaggle,希望能开发一个算法可以取代现有的人工标记方式,甘志雯带着客户一起做,从拿到

前阵子就发生了一个案例,一个关注海洋生态的环保机构找上 Kaggle,希望能开发一个算法可以取代现有的人工标记方式,甘志雯带着客户一起做,从拿到数据到整理就花了差不多两个月的时间。一切准备就绪后,才发现客户先前在某一个网站上就已经曾公开所有的数据,所有人都可以取得,但根据规范,参赛者必须使用 Kaggle 所提供的数据集来训练模型,为了维护竞赛的公平性,因此客户必须选择把网站的数据撤下,或是再搜集新的数据来做比赛,因此这个案子只能临时喊停。

Kaggle 被纳入 Google

把时间拉回到今年初,那时甘志雯正接下一个重要的案子,就是与 YouTube 合作举办一场视频分类比赛。

在 Google 机器感知研究中心(Machine Perception Research)底下有一个视频理解(Video Understanding)小组,主要的任务是建立大规模的计算机视觉和视频理解系统,好让 YouTube 的使用者可以更简单的找到一些很棒的视频内容,因此他们在去年 9 月公布了 YouTube-8M,那是一个包含了 800 万个 YouTube 影片、合计影片时数超过 50 万小时超大规模、带有标记的影像数据集,让开发者可以用来训练机器学习的模型。而 Kaggle 与 YouTube 合办的这场比赛就是希望挑战者利用 YouTube-8M 的数据,开发出能够正确指派标签的分类算法。

wzatv:独家专访Kaggle华人“主考官”甘志雯

图丨YouTube-8M

甘志雯回忆,这场比赛是一个企业界跟社群建立起非常好的互动关系的案例, YouTube 他们本身的技术就已经走在很前面, 当时他们内部设定预估模型准确度分数(Leader Borad score,LB score)的基准(benchmark)是在 0.78,不过,社群里出现很多好的想法,比到一半就有参赛者的 LB score 来到了 0.8,大家持续来回切磋,最后获得第一名的分数是在 0.849。这一种出于善意交流的态度,激励彼此一起往前走,这也是 Kaggle 的真缔。

不过,她也透露了一个小故事,就是在她接这个专案一个月后,听到公司创始人说他们要被 Google 买了,“他对我说,这个跟 YouTube 的合作案你千万不能搞砸!”尽管公司被收购,但并非所有人都可以直接成为 Google 员工,所以“当同事都开始准备跟 Google 面试,我没有时间准备,因为要弄 YouTube 比赛,当时真的很想哭。”她开玩笑的说。

wzatv:独家专访Kaggle华人“主考官”甘志雯

图丨李飞飞在 Cloud Nest 大会上宣布收购 Kaggle 的消息

今年三月,李飞飞宣布 Google 收购 Kaggle,传言成了真实的交易,没有时间准备面试的甘志雯,现在成了 Google 庞大体系的一分子。嫁入豪门后的 Kaggle 会有什么改变吗?“这个问题常常被问,对用户来说,不会看到有改变,都是独立的平台,这是当初准备卖的时候 Google 给予的保证”,她说。

不过,对员工而言改变却很大。以前的 Kaggle 办公室位在日常的公寓里,里头两个房间、两间厕所,被买了之后,Google 替他们退租了,Kaggle 团队搬进了 Google 办公室工作。更重要的是“资源变很多”,不论是可运用的运算资源或是 Google 内部跨团队的专案合作,甚至是更远大的目标。

“我们必须降低进入 AI 领域的门槛,让更多开发者社群、用户和企业使用 AI,j2直播,进而满足不同的需求。Kaggle 加入 Google,我们可以加速这一个使命”,这是李飞飞在 Google Cloud 博客写下的一段话,Kaggle 在社群累积了庞大的用户,而且不乏愿意分享心得、代、解决方案的高手,让更多的人可以学到知识及技能,“有助 AI 民主化”是 Google 看中 Kaggle 的原因,也是那个更大的目标。

wzatv:独家专访Kaggle华人“主考官”甘志雯

对于身为一个出考题的人,在采访时 DT 君问她:有没有什么可以在 Kaggle 赢高分的秘技?甘志雯不改酷酷本色的说,“多学, 就算你很有经验也不一定会赢。” 多参加比赛、多在 Kaggla 或社群平台与其他人交流,另外网络上有不少课程可以利用,多上且多听。

鼓励女生勇闯数据科学领域

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容