学界 | 弱监督视频物体识别新方法:香港科技大学联合CMU提出TD-Graph LSTM 2017-08-07 00:00 来源:机器之心 视频 原标题:学界 | 弱监督视频物体识别新方法:香港科技大学联合CMU提出TD-Graph LSTM 选自arXiv 参与:李泽南、路雪 在图像识别任务中,开奖,模型的训练一直非常依赖于标注数据,同时训练结果难以泛化。香港科技大学与卡耐基梅隆大学的研究者们最近发表的研究提出时间动态图 TD-Graph LSTM 试图解决这些问题,他们的新方法也刷新了视频目标检测的业内最佳水平。该论文已入选即将在 10 月底举行的 ICCV2017 大会。 随着数据驱动方式在图像识别上的不断发展,人们对于扩大目标检测系统规模的兴趣越来越大。然而,与分类任务不同,用不同的类与边界框完整标注对象实例的方法几乎是不可扩展的。因此,人们加大对无监督和弱监督的目标检测方法的探索力度,但现在,完全无监督、无标注的方法在类似任务中的性能表现很差,而常规弱监督方法则需要使用静态图像来训练检测器。这些目标检测器无法在转移域的情形下将良好表现泛化到视频处理中。一种替代方案是使用这些弱监督的方法,但是使用视频的帧来训练。然而,目前的方法在很大程度上依赖于图像级别标记的准确性,并且容易出现标记缺失(如图 1 所示)。 在香港科技大学与卡耐基梅隆大学共同发表的新论文中,研究人员探索了一种新的弱监督视频目标检测方式,它使用人类动作标签作为目标检测的监督学习内容。如下图所示,多个帧中粗略的人类动作标签(如看笔记本电脑或坐在椅子上)有助于指出有关的具体识别对象(如笔记本和椅子)。与之前的各类研究相比,新的方法有两个主要优点:1)通过视频的文字动作描述收集标签比通过文本标记、搜索查询和动作识别数据集 [32, 10, 36] 容易得多;2)视频固有的时间相干性为模型提供了更多线索,利于识别每个对象实例,并帮助克服标签丢失的问题。 图 1. 左侧显示了传统的弱监督目标检测设置,每个训练图像都有关于对象类别的准确图像级标注;右侧是动作驱动弱监督视频目标检测设置。每个视频里都会出现视频级的动作标签,表明动作内容及其在视频中发生的时段(开始和结束)。对于每一帧,其左下方的对象类别是动作标签中的参与对象,而右下方的对象类别则是每一帧中的所有对象。 图 2. TD-Graph LSTM 架构。 每帧首先传递到空间卷积神经网络中以提取区域级的特征。随后通过两个连续帧中区域之间的动态边缘连接构建时间图结构。TD-Graph LSTM 随后在更新后的图上循环增加信息,以生成所有区域的时间特征表示。区域级别的分类模块可以生成每帧中所有区域的类别可信度,随后进行聚合以获得帧级动作预测。每帧的最终动作驱动损失函数用于向整个模型反馈信号。在每次梯度更新后,时间图会基于新的视觉特征进行动态更新。为清晰起见,图中省去了一些边缘。 图 3. TD-Graph LSTM 在第 t 次梯度更新时的示意图。 图 4. Charades 游戏视频关键帧的样本图。动作标签都在图像底部,而相关对象则在图像上部。 表 1. 在 Charades 数据集中评估测试分类平均精度(%)时,我们新提出的模型与两种目前最先进的弱监督学习方法的全面性能比较。 表 2. 在 Charades 数据集中评估测试检测平均精度(%)时,我们新提出的模型与两种目前最先进的弱监督学习方法的全面性能比较。 图 7. 新方法与两种目前最佳的视频目标检测方法的定性比较。绿色框为检测结果,黄色框为真值。 论文:Temporal Dynamic Graph LSTM for Action-driven Video Object Detection 论文链接:https://arxiv.org/abs/1708.00666 (责任编辑:本港台直播) |