摘要:在本论文中,我们探讨了弱监督目标检测框架。大多数现有框架着重于使用静态图来学习目标检测器,但由于域转移,这些检测器通常无法泛化至视频。因此,我们尝试让这些检测器直接从日常活动的视频中学习。我们没有使用边界框,而是探索了使用动作描述作为监督的方式,因为这种标记方式相对容易获得。一个常见问题是:未包含在人类动作中的物体通常不会出现在描述语句中,这被称为「标记缺失」。为了解决这个问题,我们提出了全新的时间动态图长短期记忆网络 TD-Graph LSTM。它通过构建基于目标提议的时间相关性并横跨整个视频的动态图来实现全局时间推理。因此,通过在整个视频中相关目标提议的知识进行传递,新方法可以显著减少每一帧的标记缺失问题。我们在大规模日常活动数据集(如 Charades)上进行了大量评估,证明了这种新方法的优越性。我们还发布了 Charades 数据集中超过 5000 帧的目标边界框标注。我们相信,这些标注数据会对未来基于视频的目标识别研究有所裨益。 ,atv (责任编辑:本港台直播) |