【j2开奖】学界 | 视觉问答全景概述：从数据集到技术方法(2)_本港台直播_J2开奖直播

　　。这里 T 为隐藏变量，它对应于从问题语义分析器（semantic parser）得到的语义树（semantic tree）。W 是世界，代表图像。它可以是原始图像或从分割块获得的附加特征。使用确定性评价（deterministic evaluation）函数来评估 P(A|T,W)。使用简单的对数线性模型得到 P(T|Q)。这个模型被称为 SWQA。

作者进一步将其扩展到多元世界的场景，用来模拟分割和分类标签的不确定性。不同的标签代表不同的 W，所以概率模型为

。

这里，S 是带有类标签分布的一组分割图像集。因此，从分布中抽样分割图像时将得到其对应的一个可能的 W。由于上述方程很复杂，作者仅从 S 中抽样固定数量的 W。

这个模型称为 MWQA。这些模型在 DAQUAR 数据集上进行评估。

3.2 无注意机制的深度学习模型

VQA 的深度学习模型通常使用卷积神经网络（CNN）来嵌入图像与循环神经网络（RNN）的词嵌入（word embedding）来嵌入问题。这些嵌入以各种方式组合和处理以获得答案。以下模型描述假设读者熟悉 CNN（Krizhevsky 等人，2012）以及 RNN 变体，如长短时记忆（LSTM）单元（Hochreiter 和 Schmidhuber，1997）和门控循环单位（Gated Recurrent Unit/GRU）（Cho 等人，2014）。

一些方法不涉及使用 RNN。我们在开头已经讨论过这些模型。

3.2.1 iBOWING

（Zhou 等人，2015）提出了一种叫做 iBOWING 的基线模型。他们使用预训练的 GoogLeNet 图像分类模型的层输出来提取图像特征。问题中每个词的词嵌入都被视为文本特征，因此文本特征是简单的词袋（bag-of-word）。连接图像和文本的特征，同时对答案分类使用 softmax 回归。结果表明，该模型在 VQA 数据集上表现的性能与几种 RNN 方法相当。

3.2.2 Full-CNN

（Ma 等人，2015）提出了一种仅用 CNN 的模型，称为 Full-CNN。模型使用三种不同的 CNN：一种用于编码图像，一种用于编码问题，一种用于将图像和问题的编码结合在一起并产生联合表征。

图像 CNN 使用与 VGG 网络相同的架构，并从该网络的第二层获取长度为 4096 的向量。这通过另一个完全连接的层，以获得大小为 400 的图像表征向量。句子 CNN 涉及 3 层卷积和最大池化（max pooling）。卷积感受野（receptive field）的大小设置为 3。换句话说，核函数（kernel）会计算该词及其相邻的邻居。联合 CNN 称为多元模态 CNN（multi-modal CNN），在问题表征上的卷积感受野大小为 2。每个卷积运算都在完整的图像上进行。将多元模态 CNN 的最终表征结果传入 softmax 层以预测答案。该模型在 DAQUAR 和 COCO-QA 数据集上进行评估。

以下模型同时使用了 CNN 和 RNN 算法。

3.2.3 神经元询问（Ask Your Neurons/AYN）（Malinowski 等人，2016）

该模型使用 CNN 对图像 x 进行编码并获得图像的连续向量表征。问题 q 使用 LSTM 或 GRU 网络进行编码，其中在时间 t 步骤的输入是问题的第 t 个词 q_t 的词嵌入与图像向量编码。问题编码是最终时间步骤获得的隐藏向量。作者使用的一个简单的词袋基线是将问题的所有词嵌入的总和作为编码。

解码答案可以用两种不同的方式，一种是对不同答案的分类，另一种是答案的生成。分类由完全连接层生成输出并传入覆盖所有可能答案的 softmax 函数。另一方面，生成由解码器 LSTM 执行。在每个时间点的 LSTM 将前面生成的词以及问题和图像编码作为输入。下一个词使用覆盖词汇表的 softmax 函数来预测。需要注意的一点是，该模型在编码器和解码器 LSTM 之间共享一些权重。该模型在 DAQUAR 数据集上进行评估。

3.2.4 Vis + LSTM（Ren 等人，2015）

该模型与 AYN 模型非常相似。该模型使用 VGG 网络的最终层来获得图像编码使用 LSTM 对问题进行编码。与之前的模型相反，在编码问题之前，它们将图像编码作为第一个「词」传入 LSTM 网络。该 LSTM 的输出先通过完全连接层，然后通过 softmax 层。

作者还提出了一种使用双向 LSTM 的 2Vis+BLSTM 模型。向后的 LSTM 也将图像编码作为第一个输入。两个 LSTM 的输出相连接，然后通过一个 dense 和 softmax 层。

3.2.5 动态参数预测（DPPnet）（Noh 等人，2016）

本论文的作者认为，设定一组固定参数并不足以满足 VQA 任务。他们采用 VGG 网络架构，删除最终 softmax 层，并添加三个全连接层，并最后使用覆盖所有可能答案的 softmax 函数。这些完全连接层的第 2 层没有固定的一组参数。相反，参数来自 GRU 网络。该 GRU 网络用于对问题进行编码，并且 GRU 网络的输出通过完全连接层给出候选参数的权重小向量。然后使用逆哈希函数（inverse hashing function）将该向量映射到第 2 完全连接层所需的参数权重大向量中。这种哈希（hashing）技术被用于避免预测全部的参数权重而带来的计算成本高昂，并避免由此导致的过拟合。或者可以将动态参数层视为将图像表征和问题表征相乘得到的联合表征，而不是传统的以线性方式组合。该模型在 DAQUAR、COCO-QA 和 VQA 数据集上进行评估。

3.3 基于注意机制的深度学习技术

(责任编辑：本港台直播)