腾讯 AI Lab:在研究思路上,我们认为空间注意力模型不能很好地描述人眼的视觉注意力机制,尤其是在图像描述生成这一目前热门的视觉任务中。因此,需要引入图像卷积神经网络中的通道信息来进一步建模注意力机制。 我们提出的 SCA-CNN 模型,是一个融合了空间上和通道上的注意力的卷积神经网络。针对图像描述生成任务,SCA-CNN 基于卷积网络的多层特征来动态生成文本的描述,进而建模文本生成过程中空间上与通道上的注意力机制。 机器之心:与现有的自动生成图像文本描述的算法方法相比,该网络有何优势与不足?与世界前沿算法相比,表现如何? 腾讯 AI Lab:与现有的基于注意力的编码器-解码器结构的网络相比,SCA-CNN 特别考虑了通道上的注意力问题,因此能够更好地描述在文本生成过程中图像空间与通道上的信息。 在三个公开的数据集 (flickr8k, flickr30k, mscoco) 上的测试结果证明,相较于传统的基于注意力模型的图像描述生成, 我们提出的 SCA-CNN 模型能够显著提高图像描述生成的质量。 四、关于论文《Deep Self-Taught Learning for Weakly Supervised Object Localization》 机器之心:这篇论文提出的深度自我学习方法是如何打破弱监督物体定位的训练样本质量的壁垒?该技术对弱监督学习的精确度、计算速度等性能带来怎样的影响? 腾讯 AI Lab:这篇论文提出了从较少的、质量低下的数据开始的模型学习算法。模型在不断学习后,性能增强,从而能自主地选择更多数据、并选取其中质量更高的进行模型训练,提升模型性能,从而实现模型的自主学习。这种依靠模型自身达到数据从少到多、从差到好的自主获取过程,有效打破了弱监督学习数据质量低的瓶颈。 我们创新性地提出依靠预测分数的相对增量来指导获取更高质量训练数据,有效减轻了质量低下的训练数据对模型的影响,防止模型因对这些数据过拟合而陷入局部最优点。该方法因为能动态获取更多更高质量的训练数据,比使用固定的质量低下的训练数据学习到的检测器模型性能大大增强,额外时间开销也很小,并在 PASCAL VOC 07 和 12 数据集上超过其他当前最先进的几种方法。 五、关于论文《Diverse Image Annotation》 机器之心:能否介绍一下 DIA 算法是如何最大程度地利用利用语义关系,同时降低冗余的? 腾讯 AI Lab:我们先从 WordNet 中挖掘了图像标签之间的语义拓扑关系和同义词组,随后将合并同义词组并分裂多义标签,进而提出了权重语义路径这一全新概念,使得每条语义路径能够明确地表达一个完整的语义信息。在此基础上,直播,我们规定在标签采样过程中,一条语义路径上最多只能有一个标签被选中来标注一幅图像,从而最大限度地避免了标签之间的语义冗余,因此鼓励了标签多样性。 机器之心:语义层级的多样性及质量对 DIA 算法有怎样的影响?下一步研究方向? 腾讯 AI Lab:语义层级多样性和质量对 DIA 的算法的影响在于,我们通过对人为标注结果的观察和统计发现,人在标注过程中充分考虑了标签之间的语义关系从而保证了语义多样性。而且人的标注结果与我们所定义的语义路径高度吻合,这就验证了我们所定义的语义路径的高质量,也是 DIA 算法能够产生与人的类似标注结果的关键所在。 未来,我们计划将语义路径嵌入到模型学习阶段,而不仅仅是目前所涉及到的采样预测阶段,这将更加充分地发挥语义路径的作用。 六、关于论文《Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images》 机器之心:能否介绍一下本文中提出的物体三维重建方法是如何基于曼哈顿结构与对称信息进而达到较好的效果?与单张图片相比,本文提出的三维重建方法在针对多张图像时存在什么异同? 腾讯 AI Lab:这篇论文是由腾讯 AI Lab、约翰霍普金斯大学及加州大学洛杉矶分校合作发表,主要讨论了如何从二维图像中进行人造物体(如汽车、飞机等)的三维结构重建问题。事实上,绝大多数人造物体都有对称性以及曼哈顿结构,后者表示我们可以很容易在欲重建的人造物体上找到三个两两垂直的轴。例如,在汽车上,这三个轴可为两个前轮、两个左轮及门框边缘。 (责任编辑:本港台直播) |