本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】学界 | 视觉问答全景概述:从数据集到技术方法(3)

时间:2017-05-31 19:35来源:天下彩论坛 作者:j2开奖直播 点击:
基于注意机制的技术是最受欢迎的技术之一,在机器翻译(Bahdanau 等人,2014)、图像描述(Xu 等人,2015)等众多任务中使用。对于 VQA 任务,注意机制模

基于注意机制的技术是最受欢迎的技术之一,在机器翻译(Bahdanau 等人,2014)、图像描述(Xu 等人,2015)等众多任务中使用。对于 VQA 任务,注意机制模型聚焦在图像、问题或两者的重要部分,从而有效地给出答案。

3.3.1 Where To Look(WTL)

(Shih 等人,2016)提出了以下称为 WTL 的基于注意机制的模型。他们使用 VGGnet 对图像进行编码,并连接最后两层 VGGnet 的输出,以获得图像编码。问题表征是通过对问题中每个词的词向量求平均得到的。在图像特征集上计算注意向量,以确定图像中的哪个区域重要。该向量用下面的方式计算:如果 V=(-→v1,-→v2 ... -→vK)是图像特征的集合,而-→q 是问题嵌入,则第 j 个区域的重要性被计算为 g_j=(A-→vj+bA)T(B-→q+bB)

注意向量的权重通过标准化-→g 获得。最终的图像表征是不同区域的注意值加权和。这与嵌入问题相连接,并传入 dense+softmax 层。该模型在 VQA 数据集上进行评估。损失函数是基于 VQA 评估指标的最大边际损失(margin based loss)。

3.3.2 循环空间注意(Recurrent Spatial Attention/R-SA)(Zhu 等人,2016)

本模型在两个方面比上一个模型超前一步。首先,它使用 LSTM 对问题进行编码,其次,在扫描问题的每个词之后,它重复地计算图像的注意值。更具体地说,在 LSTM 的每个时间步长 t,我们反复计算图像特征的注意值加权和 r_t,r_t 用作 LSTM 的下一个时间步长的附加输入。利用 LSTM 之前的隐藏状态 ht-1 和图像本身,用于得到 r_t 的注意向量的权重用 dense+softmax 层计算得出。从生理角度,当我们阅读问题时,我们会不断地决定图像的哪部分需要注意,而现在注意的部分取决于当前的词和 ht-1 状态前的注意加权图像。

该模型在 Visual7W 数据集上进行评估,该数据集用于文本回答任务以及指点任务(指出图像中的区域作为答案)。实际和预测答案之间的 softmax 交叉熵损失函数(cross entropy loss)用于文本回答任务。对于指点任务,通过采用表示该区域的特征的点积和 LSTM 的最后状态来获得候选区域的对数似然值(log likelihood)。再次使用交叉熵损失函数来训练模型。

3.3.3 堆叠注意网络(Stacked Attention Networks/SAN)(Yang 等人,2016)

本模型在思想上与之前的模型相似,因为它反复计算对图像的注意向量,以获得更细粒度的视觉信息来预测答案。然而,虽然之前的模型对问题逐词计算,本模型首先使用 LSTM 或 CNN 对整个问题进行编码。这里的问题编码用与之前类似的方程来注意图像。然后,连接注意加权图像与问题编码,并将其再次用于计算对原始图像的注意。这可以重复 k 次,之后使用问题和最终图像表征来预测答案。作者认为,这种「堆叠」注意有助于模型迭代地丢弃图像中不重要的区域。作者对 k=1 和 k=2 进行了实验,并在 DAQUAR、COCO-QA 和 VQA 数据集上进行评估。

3.3.4 层次协同注意(Hierarchical Co-attention/CoAtt)(Lu 等人,2016)

本文不同于之前基于注意的方法,它的模型除了对视觉注意外,还同时注意问题(问题的哪部分重要)。模型有两种协同注意的形式:1)并行协同注意,其中图像和问题的注意同时进行。这通过计算亲和矩阵(affinity matrix)C=tanh(Q^TWI) 来完成,其中 W 是可学习的权重矩阵,C_ij 表示问题中第 i 个词和图像中第 j 个区域的亲和值。该矩阵 C 用于获得图像和问题注意向量。2)交替协同注意,这里我们迭代地注意图像,然后查询,然后再次注意图像(类似于 SAN 的思想)。

作者使用的另外一个想法是在不同的抽象层上编码问题:词、短语和问题层面。通过 LSTM 获得问题的表征,而从 CNN 获得词和短语的表征。该模型在 VQA 和 COCOQA 数据集上进行评估。

3.4 其它模型

不同于前面的模型,下面的模型使用了更多的思想,而不仅仅是在计算图像或问题的注意值方面作改变。

3.4.1 神经模块网络(NMN/Neural Module Network)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容