另外,我们也认识到视频分析中算法效率的重要性,在 Youtube-8M 数据集中,预处理阶段需要数千小时的 GPU 时间,而各队所提交的方案又各需要一千至数千小时的 GPU 时间来训练。在实际应用中,这样的运行效率常常是无法接受的,这也是为什么我们认为 Attention Pooling 相关的方法会更加流行的原因。 其他参赛团队的亮点总结 1. WILLOW 团队:可学习的Pooling + Context Gating 来自INRIA的WILLOW 团队使用了基于聚类的 NetVLAD 网络对特征进行 pooling。他们同时改造了 NetVLAD 网络并融入了对二阶统计特性的建模,使网络可以学习 Fisher Vector 表示,并称之为 NetFV。这两个网络的优点在于计算量小,可以使用帧采样,易于并行。他们对门控线性单元 GLU 进行了简化,将简化的模块称为 Context Gating,通过这个门控单元捕获特征之间的相关性。Gated NetVLAD 也是本次比赛中单模型性能最佳的帧级别分类网络。 报告:https://arxiv.org/abs/1706.06905 代码:https://github.com/antoine77340/Youtube-8M-WILLOW 2. offline 团队:Fast-forward 序列模型 来自百度IDL与清华大学的 offline 团队对视频的时间序列模型进行了探索,他们使用一个多达7层的 LSTM/GRU 网络建模视频特征,如此之深的循环神经网络通常难以训练,他们引入了 Fast Forward 连接,有效缓解了训练的困难。该模型是本次比赛中单模型性能最佳的时间序列模型。 报告:https://arxiv.org/abs/1707.04555 代码:https://github.com/baidu/Youtube-8M (责任编辑:本港台直播) |