【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析 2017-08-03 11:34 来源:新智元 视频 /谷歌 /youtube 原标题:【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析 1 新智元原创 作者:王鹤达,清华大学电子系多媒体信号与信息处理实验室 【新智元导读】谷歌云和 Kaggle 共同主办的 YouTube-8M 大规模视频理解竞赛,来自清华大学电子系的团队主要从三个方面对视频进行建模:标签相关性、视频的多层次信息,以及时间上的注意力模型。最终,他们的方法在 600 多支参赛队伍中获得第二。来看他们的实战技术分享。 论文地址:https://arxiv.org/abs/1706.05150 代码地址:https://github.com/wangheda/youtube-8m 理解和识别视频内容是计算机视觉中的一大主要挑战。理解视频也有很多的应用,包括安防监控、智能家居、自动驾驶,还有影视素材搜索和体育视频分析。今年 2 月,谷歌更新了此前开源的大规模视频数据集 YouTube-8M,新的数据集除了标签升级,还包含了预计算的音频特征,音频和视觉特征以 1 秒的时间粒度同步,有助于进行联合视听(时间)建模。 谷歌还同时宣布了与 Kaggle 平台联合举办视频理解竞赛,邀请参与者使用 Youtube-8M 作为训练数据,利用谷歌云机器学习,构建视听内容分类模型。表现最佳的参赛队伍将获得 10 万美元的奖金。 更新后的 YouTube-8M 数据集的 tree-map可视化,分为 24 个高级垂直类别,包括前 200 个最常见的实体,以及每个类别的前5个实体。 YouTube-8M 数据集中前 18 个高级类别里的视频示例。 6 月 30 日,比赛公布了结果。在刚刚结束的 CVPR 2017 YouTube-8M 大规模视频理解挑战赛 Workshop 上,主办方与各参赛团队就各自使用的方法进行了交流探讨。 下文是获得第二名的 monkeytyping 团队所做的赛后总结。团队成员王鹤达与张腾均来自清华大学电子系多媒体信号与信息处理实验室,导师为吴及副教授。张腾目前正在攻读博士学位,研究方向为多媒体事件检测;王鹤达于今年 7 月硕士毕业,他的研究兴趣为推荐系统、自然语言处理与计算机视觉。 竞赛结果:法国第一,中国团队包揽第二、三、四名 Youtube-8M 大规模视频理解挑战赛由 Google Cloud 与数据科学竞赛网站 Kaggle 共同主办,从今年 2 月开始,到 6 月初结束,在四个月的时间里吸引了超过 600 个团队参加比赛。最终,来自法国国立计算机及自动化研究院(INRIA)的 WILLOW 团队夺得第一名,第二名的 monkeytyping 团队来自于清华大学电子系,第三名的 offline 团队来自于百度深度学习实验室和清华大学,第四名的 FDT 团队来自于复旦大学、中山大学和武汉大学。 谷歌 YouTube-8M 大规模视频理解竞赛结果:来自法国国立计算机及自动化研究院(INRIA)的 WILLOW 团队夺得第一名,第二名的 monkeytyping 团队来自于清华大学电子系,第三名的 offline 团队来自于百度深度学习实验室和清华大学,开奖,第四名的 FDT 团队来自于复旦大学、中山大学和武汉大学。 比赛中所采用的数据集是由 Google 在去年公布的 Youtube-8M 多标签视频分类数据集。该数据集有 700 万样本,是迄今为止最大的视频分类数据集,远超之前被普遍使用的 ActivityNet 和 UCF101 数据集。另外,这个新的数据集的领域也更加多样,共有 4716 个不同的分类标签,平均每个视频的标签数量为 3-4 个。这些标签取自 Knowledge Graph 中的实体,是由标注程序根据视频的文本和视觉信息进行标注,并经人工检验和过滤得到的。 尽管在多样性和数据规模上具有优势,Youtube-8M 数据集也存在着一些限制。首先,为了减少计算上的门槛,Google 对视频数据进行了每秒 1 帧的采样,并使用在 ImageNet 上预训练的网络对每帧图像提取特征。由于数据集中仅包括预提取的特征,这使得参赛者所能使用的手段变得较为有限。其次,数据集中仅包括视频级别的类别标注,没有细粒度的其他种类标注,这限制了数据集应用的场景。第三,数据集中的标签是由机器生成的,在召回率方面具有一定的缺陷。 (责任编辑:本港台直播) |