编译:王楠、刘小芹 AI复始,万象更新 ! 新智元祝广大订户鸡年大吉!
新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】谷歌再度开放Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),含23类共500万手动注释的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动注释边界框视频数据集,希望该数据集能够推动视频对象检测和跟踪的新进展。【进入新智元公众号,在对话框输入“170207”下载论文】 谷歌今天还开源了 TensorFlow 模型性能调优工具 tfprof,使用 tfprof 可以查看模型的参数量和张量形状(tensor shape),了解运算的运行时间、内存大小和设备位置。现在,tfprof 已经支持Python API、交互式命令行工具和单步脚本使用(One-shot )。 当今机器学习中最具挑战的一个研究领域便是让计算机理解场景内容。例如,一个球被墙挡住后从视线中短暂消失,然后又重新出现,人类知道这个后出现的球很可能就是刚才那个球,但这对于算法而言却并不是这么一回事。要理解这一点,不仅需要对视频的每一帧中包含的对象有一个全局性的了解,还需要知道这些对象在帧内的位置和它们随时间的位置变化。2016 年,谷歌发布了 YouTube-8M,一个由自动标记的YouTube视频组成的数据集。虽然这个数据集对该领域的进一步发展有所帮助,但还远远不够。 今天,为了促进视频理解方面的研究,我们发布了 YouTube-BoundingBoxes 数据集(https://research.google.com/youtube-bb/)。这是一个在21万 YouTube 视频片段中进行密集的标注,由包含13类物体的共500万边界框(bounding boxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。该数据集的规模之大,足以训练大型模型,并且包含在自然环境中拍摄的视频。更重要的是,人工标注的注释里包含在现实世界中出现的对象,它们可能被局部遮挡,出现运动模糊以及具有自然采光。
图:数据集的概况。条形图:现有图像(红色)和视频(蓝色)数据集中的相对检测数量。YouTube-BoundingBoxes 数据集(YT-BB)在最底部。表格:三个列的计数分别表示:分类注释,边界框,带边界框的单个视频。有关数据集的详细信息,请参阅预印本论文。 该数据集的一个关键特征是为整个视频片段提供边界框标记。这些边界框标记可用于训练利用时间信息以随时间进行识别,定位以及跟踪对象的模型。在视频中,带标记的对象可能完全被遮挡,并在后面的帧中重新出现。单个对象的这些标记有时不能再每个帧上识别出,但如果对象被精确地定位和跟踪,则可以在视频上下文中得到理解和识别
3个视频片段,取样标准为每秒 1帧。每个样本的最后一帧展示了由于模糊或遮蔽(比如列车那一帧),从视觉上识别带边界的对象难度有多大。但是,在时间上关联的帧当中,对象更容易被识别,这使得计算机能够通过推理(infer)对对象进行分类。注意,样本中仅有可见的部分被纳入了边界框:北极熊图像中,橙色箭头指示出了隐藏的头部。在两只狗嬉戏图中,橙色箭头指出隐藏的尾巴,蓝色箭头则指出了不可见的脚部。最下方飞机的样本中展示了在不同视角、遮蔽情况和取景中对部分对象进行注释。 我们希望这个数据集有助于计算机视觉和机器学习领域的研究,引导出分析和理解现实世界中的视觉问题的新方法。有关该数据集的更多信息可在相关预印本论文中了解。 YouTube边界框:用于视频对象检测的大型高精人类标注数据集
摘要 (责任编辑:本港台直播) |