【j2开奖】学界 | 视觉问答全景概述：从数据集到技术方法(4)_本港台直播_J2开奖直播

（Andreas 等人，2016）该模型为每个图像和问题同时不间断地生成一个神经网络。具体的实现方式为：从各种基于问题的子模块中选择，并组合它们生成神经网络。有五种模块：注意 [c]（其计算给定图像和给定 c 的注意映射；c 可以是「狗」，然后注意 [狗] 将尝试找到含有狗的图像），分类 [c]（对于给定的图像和注意映射，其输出属于 c 的标签的分布；c 可以是「颜色」），重新注意 [c]（它使用注意映射并基于 c 重新计算这个映射；c 可以是「上面」，意味着将注意力向上移动），测量 [c]（它仅通过注意映射输出标签的分布）和组合 [c]（它合并由 c 确定的两个注意映射，c 可以是「与」或「或」）。

决定组合哪些模块之前，模型首先使用依存句法分析器（dependency parser）来解析问题，并使用此依存关系创建基于中心词的符号表达。本论文的一个例子是「What is standing on the field（站在运动场上的是什么）」变为「what（stand）」。然后用这些符号形式来确定要使用的模块。之后通过反向传播端到端（end-to-end）地训练整个系统。模型在 VQA 数据集与一个更具挑战性的合成数据集（由于发现 VQA 数据集不需要太多的高级推理或组合）上评估。

3.4.2 包含知识库

（Wu 等人，2016b）提出了「询问任何问题」（Ask Me Anything/AMA）模型，该模型试图借助外部知识库中的信息来帮助指导视觉问答。它首先基于图像的标题获得一组属性，如对象名称、属性等。图像标题模型在 MS-COCO 数据集上使用标准的图像加标题技术训练。该模型生成 256 个可能的属性，并且属性生成器使用 VGG 网络的变体在 MS-COCO 数据集上训练。前 5 个属性用于生成查询 DBpedia 数据库的语句。每次查询返回一个用 Doc2Vec 算法排序汇总的文本。该汇总文本作为附加输入传给生成回答的 LSTM 解码器。模型在 VQA 和 COCO-QA 数据集上进行评估。

【j2开奖】学界 | 视觉问答全景概述：从数据集到技术方法

表 2：不同模型在 DAQUAR（部分）、DAQUAR（全部）、COCO-QA 数据集上的表现

【j2开奖】学界 | 视觉问答全景概述：从数据集到技术方法

表 3：不同模型在 VQA 数据集上的表现

4 讨论以及未来的工作

在所有 VQA 数据集上，深度学习模型的表现比早期基于图模型的方法出色，这已经成为近年来的趋势。然而，有趣的是，我们看到 ATP 模型的表现优于非注意模型，这证明简单地引入卷积和/或循环神经网络是不够的：原则上识别相关的图像部分是重要的。ATP 甚至可以与一些注意模型（如 WTL 和 SAN）相媲美甚至表现更好。

CoAtt 的表现有显著的提升，该模型首先注意问题然后注意图像。这对于长问题可能是有帮助的，由于这些问题更难用 LSTM/GRU 编码表示为单个向量，因此首先对每个词进行编码，然后使用图像来注意重要的词，这样有助于提高模型的准确率。NMN 模型使用了为每个（图像/问题）对自动组合子模型的新颖想法，它的表现效果类似于在 VQA 数据集上的 CoAtt 模型，但是在需要更高级推理的合成数据集上优于所有模型，表明该模型在实际中可能是一种有价值的方法。然而，需要更多的测试来判断该模型的性能。

在 COCO-QA 数据集上表现最好的模型是 AMA 模型，它包含外部知识库（DBpedia）的信息。这样做的一个可能的原因是知识库帮助解决涉及常识的问题，而这些知识可能不在数据集中。该模型在 VQA 数据集上的表现不是很好，atv，这可能是因为这个数据集没有太多的问题需要常识。自然地这种模型会为未来的工作带来两大方向。第一个方向是认识到外部知识的必要性：某种 CoAtt 和 AMA 的混合模型加上是否访问知识库的决策器可能会兼有两种模型的优点。该决策器可能是面向应用的，以实现端到端的训练。第二个方向是探索使用其它知识库，如 Freebase、NELL 或 OpenIE 的信息提取。

正如我们所看到的，在这个任务上，注意值的新颖计算方法能持续改善模型的效果。这也是在文本问答（textual question answering）任务中看到的，因此可以用文本问答的更多模型来指导 VQA 模型。对各种 VQA 数据集的性能上限估计的研究将是非常有价值的，以便找到可能的改进方法，特别是对于自动生成的 COCO-QA 数据集。最后，大多数 VQA 任务将回答视为分类任务。将回答作为生成任务将是有趣的，但数据集的收集和评估方法仍然是一个有待解决的问题。

5 结论

(责任编辑：本港台直播)