如果你也对视觉智能研究感兴趣,微软的计算机视觉 API 会对你有帮助。它能从任何图像中提取丰富的信息,并对视觉数据进行分类和处理。你也可以使用微软在 GitHub上发布的范例自己做一个生成视频标题的 App。不妨试试看! 微软计算机视觉 API:https://www.microsoft.com/cognitive-services/en-us/computer-vision-api Github 官网:https://github.com/Microsoft/Cognitive-Samples-VideoFrameAnalysis/ 微软 VideoToText 挑战赛 & MSR-VTT 开源数据库 视频在互联网、广播频道和个人设备上变得越来越常见,大量的应用中都出现了用于分析视频内容语义的先进技术。视频识别一直是几十年来计算机视觉中的绝大难题。此前的研究大部分都着眼于识别预先定义而且非常有限的词汇。 本挑战赛需要再进一步,把目标视频内容转化成一个完整和自然文字句子。
微软将会发布 Video to Text (MSR-VTT),这是一个开源的大规模视频基准,用于实现视频与语言之间的转换(具体时间关注新智元后续报道)。MSR-VTT 数据库包含了 41.2 小时的视频和 200 K 短语,覆盖了最全的种类和最多样化的视觉内容。在句子和词汇上目前做到了最大。 数据库可以被用于训练和评估视频到语言的转换任务,在不远的未来,也可以用于其他一些任务,比如,视频检索、事件监测、视频分类等等。这一挑战赛将允许使用外部数据来训练和挑战算法的参数。 下面简单介绍 VideoToText 挑战赛(有兴趣参赛的读者可以下载论文查看详细内容)。 任务描述 今年的比赛将聚焦于视频到语言的转化任务。给定一个输入视频片段,其目标是自动的生产一个完整的自然语言句子,描述视频中的内容,把视频中的信息提取出来。 参赛者需要根据提供的MSR-VTT数据库(作为训练数据),或者别的任何公共、私人数据开发语言模型,来识别图像或者视频中大量的物体、场景和事件。为了满足评价标准,一个参赛系统至少需要产生关于视频的一个描述。其准确率被用于与人类写成的描述进行比较。 提交样本
评价标准 最后评价的标准将取决于在 MSR-VTT 测试集上取得的结果,会对多项常用标准进行评价,其中包括 BLEU@4, METEOR, ROUGE-L, and CIDEr-D。 此外,竞赛还会加入人为测评。标准如下: 连贯性:判断句子的逻辑和可读性 相关性:句子中有没有包含更加重要和相关的信息 对盲人的帮助性(额外标准):这句子对于盲人理解视频是否有帮助 论文:为用户生成的视频生成标题 作者:Kuo-Hao Zeng, Tseng-Hung Chen, Juan Carlos Niebles, Min Sun 摘要 好的视频标题简洁明了地描述最显著的特征,同时吸引观众的眼球。相比之下,视频描述(video captioning)往往生成的是描述整个视频的句子。尽管自动生成视频的标题十分有用,但受的关注却远不如视频描述。我们结合两种方法,首次实现了自动生成视频标题的任务,这两种方法都是当前最先进的视频描述技术的扩展。 首先,atv,我们使用一个重点检测器(highlight detector)对视频描述生成器进行初始化,让视频描述生成器能够关注重点部分。我们的框架能够同时训练标题生成模型和视频重点定位模型。然后,我们将高度句子多样性引入视频描述生成器,这样生成的标题听上去就多样而且上口。这意味着系统需要大量的句子作为训练数据,学习标题的句子结构。 因此,我们提出了一种全新的句子增强(sentence augmentation)法,使用仅含有句子的样本对其进行训练,这些句子都是之前没有用过的,而且也没有对应的视频。我们收集了一个大规模的 Video Titles in the Wild(VTW)数据集,含有 1.81 万机器从网上自动获得的用户生成的视频和标题。在 VTW 上面,我们的方法持续提高标题预测的准确率,在自动评估和人类评估两方面都取得了最好的成果。最后,我们的句子增强法还超过了 M-VAD 数据集的基准。 【进入新智元公众号,直接在对话框输入“1012”下载论文(附 VideoToText 挑战赛介绍)】 编译来源:https://www.microsoft.com/en-us/research/bots-generate-video-titles-and-tags-to-bring-ai-researchers-one-step-closer-to-visual-intelligence/
豪华嘉宾阵容,共飨 AI 盛宴
8 大院长齐聚新智元智库院长圆桌论坛 (责任编辑:本港台直播) |