本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

时间:2017-08-13 18:55来源:报码现场 作者:118开奖 点击:
学界 | UC伯克利提出新型视觉描述系统,物体描述无需大量样本 2017-08-13 10:58 来源:机器之心 操作系统 原标题:学界 | UC伯克利提出新型视觉描述系统,物体描述无需大量样本 选自BA

学界 | UC伯克利提出新型视觉描述系统物体描述无需大量样本

2017-08-13 10:58 来源:机器之心 操作系统

原标题:学界 | UC伯克利提出新型视觉描述系统,物体描述无需大量样本

选自BAIR

作者:Subhashini Venugopalan、Lisa Anne Hendricks

机器之心经授权编译

参与:路雪

现在的视觉描述只能描述现有的训练数据集中出现过的图像,且需要大量训练样本。近日,UC 伯克利提出一种新型视觉描述系统,无需成对的新物体图像和语句数据就可描述该物体。

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

给出一个图像,人类可以轻松推断出其中最明显的实体,并有效描述该场景,比如,物体所处地点(在森林里还是在厨房?)、物体具备什么属性(棕色还是白色?),以及更重要的一点:一个物体如何与其他物体互动(在地上跑,还是被一个人抓着等等)。视觉描述的任务旨在开发为图像中的物体生成语境描述的视觉系统。视觉描述正面临挑战,因为它不仅需要识别物体(熊),还要识别其他元素,如动作(站立)和属性(棕色),并构建一个流畅的句子来描述物体、动作和属性在图像中的关系(如一头棕熊站在森林里的一块岩石上)。

视觉描述的现状

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

LRCN [Donahue et al. '15]:一头棕熊站在绿色的地面上。

MS CaptionBot [Tran et al. '16]:一头大棕熊穿行在森林中。

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

LRCN [Donahue et al. '15]:一头黑熊站在草地中间。

MS CaptionBot [Tran et al. '16]:一头熊在吃草。

以上为目前描述生成器(captioner)对两幅图片生成的描述。第一幅是训练数据中出现的物体(熊)图像,第二幅是模型在训练过程中未见过的物体(食蚁兽)图像。

当前的视觉描述或图像字幕生成模型效果已经很好,但是它们只能描述现有的图像字幕训练数据集中出现过的物体,且需要大量训练样本来生成好的描述。要学习如何在语境中描述类似「豺或「食蚁兽」的物体,大多数视觉描述模型需要大量带有对应描述的豺或食蚁兽样本。但是,当前的视觉描述数据集,如 MSCOCO,不包含对所有物体的描述。与之相反的是,近期使用卷积神经网络(CNN)的目标识别工作能够识别出数百种类别的物体。尽管目标识别模型能够识别豺和食蚁兽,但是描述模型不能生成这些识别动物在语境中的准确描述语句。我们构建的视觉描述系统克服了这一难题,该系统无需成对的新物体图像和语句数据就可描述该物体。

任务:描述新物体

这里,我们正式地定义一下我们的任务。给定一个包含成对图像和描述(图像-句子对数据,如 MSCOCO)的数据集以及带有物体标签但没有描述的图像(非成对图像数据,如 ImageNet),直播,我们希望能够学习如何描述在图像-句子对数据中未出现的物体。为此我们必须构建一个模型,该模型能够识别不同的视觉要素(如豺、棕色、站立和地面),并用新的方式将其组合成流畅的描述。以下是我们的描述模型的关键模块。

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

我们的目标是描述训练图像中的多种物体。

使用数据的外部资源

为了给图像-字幕训练数据之外的多种物体生成描述,我们利用了外部数据源。具体来说,我们使用带物体标签的 ImageNet 图像作为非成对图像的数据源,将没有标注的文本语料库(如 Wikipedia)中的句子作为我们的文本数据源。它们分别用于训练我们的视觉识别 CNN 和语言模型。

wzatv:UC伯克利提出新型视觉描述系统,物体描述无需

在外部资源上进行高效训练

捕捉语义相似度

我们希望能够描述在图像-句子对训练数据中未见过但与之类似的物体(如 ImageNet 中的物体)。我们使用密集词嵌入(dense word embedding)来达到该目的。词嵌入是词密集的高维表征,意义接近的词在嵌入空间中比较接近。在我们之前的工作「深度合成字幕(Deep Compositional Captioning,DCC)」[1] 中,我们首次在 MSCOCO 成对图像-字幕数据集上训练字幕模型。然后,为了描述新物体,我们对于每一个新物体(如霍加狓鹿)都使用词嵌入方法来确定一个在 MSCOCO 数据集所有物体中与新物体最相似的物体(在此案例中该物体是斑马)。之后,我们将该模型学得的参数从已见过的物体传输(复制)到未见过的物体(即将斑马对应的网络权重复制到霍加狓鹿)。

新物体字幕生成

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容