本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:8M 大规模视频理解竞赛技术剖析(3)

时间:2017-08-03 18:43来源:天下彩论坛 作者:www.wzatv.cc 点击:
另外,我们也认识到视频分析中算法效率的重要性, 在 Youtube-8M 数据集中,预处理阶段需要数千小时的 GPU 时间,而各队所提交的方案又各需要一千至数千

另外,我们也认识到视频分析中算法效率的重要性,在 Youtube-8M 数据集中,预处理阶段需要数千小时的 GPU 时间,而各队所提交的方案又各需要一千至数千小时的 GPU 时间来训练。在实际应用中,这样的运行效率常常是无法接受的,这也是为什么我们认为 Attention Pooling 相关的方法会更加流行的原因。

其他参赛团队的亮点总结

1. WILLOW 团队:可学习的Pooling + Context Gating

来自INRIA的WILLOW 团队使用了基于聚类的 NetVLAD 网络对特征进行 pooling。他们同时改造了 NetVLAD 网络并融入了对二阶统计特性的建模,使网络可以学习 Fisher Vector 表示,并称之为 NetFV。这两个网络的优点在于计算量小,可以使用帧采样,易于并行。他们对门控线性单元 GLU 进行了简化,将简化的模块称为 Context Gating,通过这个门控单元捕获特征之间的相关性。Gated NetVLAD 也是本次比赛中单模型性能最佳的帧级别分类网络。

码报:8M 大规模视频理解竞赛技术剖析

报告:https://arxiv.org/abs/1706.06905

:https://github.com/antoine77340/Youtube-8M-WILLOW

2. offline 团队:Fast-forward 序列模型

来自百度IDL与清华大学的 offline 团队对视频的时间序列模型进行了探索,他们使用一个多达7层的 LSTM/GRU 网络建模视频特征,如此之深的循环神经网络通常难以训练,他们引入了 Fast Forward 连接,有效缓解了训练的困难。该模型是本次比赛中单模型性能最佳的时间序列模型。

码报:8M 大规模视频理解竞赛技术剖析

报告:https://arxiv.org/abs/1707.04555

代码:https://github.com/baidu/Youtube-8M

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容