【j2开奖】一周论文 | Image Caption任务综述(2)_本港台直播_J2开奖直播_www.wzatv.cc

本港台开奖现场直播

j2开奖直播报码现场

当前位置: 新闻频道 > IT新闻 >

【j2开奖】一周论文 | Image Caption任务综述(2)

时间:2017-01-21 20:34来源:118图库作者:118开奖点击: 次

该模型首先利用卷积神经网络提取图像特征，然后结合图像特征和词嵌入的文本特征作为gLSTM的输入。由于之前gLSTM的guidance都采用了时间不变的信息，忽略

　　该模型首先利用卷积神经网络提取图像特征，然后结合图像特征和词嵌入的文本特征作为gLSTM的输入。由于之前gLSTM的guidance都采用了时间不变的信息，忽略了不同时刻guidance信息的不同，而作者采用了text-conditional的方法，并且和图像特征相结合，最终能够根据图像的特定部分用于当前单词的生成。

　　6 Att-CNN+LSTM [6]

　　What value do explicit high level concepts have in vision to language problems?

　　如图，作者首先利用VggNet模型在ImageNet数据库进行预训练，然后进行多标签数训练。给一张图片，首先产生多个候选区域，将多个候选区域输入CNN产生多标签预测结果，然后将结果经过max pooling作为图像的高层语义信息，最后输入到LSTM用于描述的生成。该方法相当于保留了图像的高层语义信息，不仅在Image Caption上取得了不错的结果，在VQA问题上，也取得很好的成绩。

　　

【j2开奖】一周论文 | Image Caption任务综述

　　7 MSM[7]

　　BOOSTING IMAGE CAPTIONING WITH ATTRIBUTES

　　

【j2开奖】一周论文 | Image Caption任务综述

　　该文研究了图像属性特征对于描述结果的影响，其中图像属性特征通过多实例学习[2]的方法进行提取。作者采用了五种不同的组合形式进行对比。其中第3种、第5种，在五种中的表现出了比较好的效果。由于提取属性的模型，之前用于描述图像的单词的生成，所以属性特征能够更加抓住图像的重要特征。而该文中的第3种形式，相当于在NIC模型的基础上，在之前加上了属性作为LSTM的初始输入，增强了模型对于图像属性的理解。第5种，在每个时间节点将属性和文本信息进行结合作为输入，使每一步单词的生成都能够利用图像属性的信息。

　　8 When to Look[8]

　　Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

　　

【j2开奖】一周论文 | Image Caption任务综述

　　该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关，而是可以从当前生成的描述中推测出来，所以当前单词的生成可能依赖图像，也可能依赖于语言模型。基于以上思想，作者提出了“视觉哨兵”的概念，能够以自适应的方法决定当前生成单词，是利用图像特征还是文本特征。

　　结果

　　本文列出的模型的在COCO测试集上的结果如下：

　　

【j2开奖】一周论文 | Image Caption任务综述

　　以下为online MSCOCO testing server的结果：

　　

【j2开奖】一周论文 | Image Caption任务综述

　　总结

　　最近的Image Caption的方法，大多基于encoder-decoder框架，而且随着flickr30,mscoco等大型数据集的出现，为基于深度学习的方法提供了数据的支撑，并且为论文实验结果的比较提供了统一的标准。模型利用之前在机器翻译等任务中流行的Attention方法，j2直播，来加强对图像有效区域的利用，使在decoder阶段，能够更有效地利用图像特定区域的特征[3]。模型利用图像的语义信息在decoder阶段指导单词序列的生成，避免了之前只在decoder开始阶段利用图像信息，从而导致了图像信息随着时间的增长逐渐丢失的问题[4][5]。模型为了更好的得到图像的高层语义信息，atv，对原有的卷积神经网络进行改进，包括利用多分类和多实例学习的方法，更好的提取图像的高层语义信息，加强encoder阶段图像特征的提取[6][7]。随着增强学习，GAN等模型已经在文本生成等任务中取得了不错的效果，相信也能为Image Caption效果带来提升。

　　参考文献

　　1. Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[J]. Computer Science, 2015:3156-3164.

　　2.Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015:1473-1482.

　　3.Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science, 2016:2048-2057.

　　4.Jia X, Gavves E, Fernando B, et al. Guiding Long-Short Term Memory for Image Caption Generation[J]. 2015.

　　5.Zhou L, Xu C, Koch P, et al. Image Caption Generation with Text-Conditional Semantic Attention[J]. 2016.

　　6.Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?[J]. Computer Science, 2016.

　　7.Yao T, Pan Y, Li Y, et al. Boosting Image Captioning with Attributes[J]. 2016.

　　8.Lu J, Xiong C, Parikh D, et al. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning[J]. 2016.

　　作者

　　朱欣鑫，北京邮电大学在读博士，研究方向为视觉语义理解

　　邮箱：[email protected]

　　paperweekly最近刚刚成立多模态组，有对image caption、VQA等多模态任务感兴趣的童鞋可以申请加入！

　　关于PaperWeekly

(责任编辑：本港台直播)

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

上一篇：越南担心人口红利失效，拟松绑二胎政策
下一篇：wzatv:【图】招聘 | 加入百度语音，收获在人工智能领域的未来！

栏目列表

推荐内容

码报:央行要求支付宝纠正支付宝年
（原标题：支付宝年度账单默认勾选引央行关注，曾要求其纠正...
紫光控股继续增持联想控股 22日再
啪啪啪讯12月22日，紫光控股发布公告称，于12月22日进一步购入...
wzatv:Alphabet董事长明年1月卸任：他
（原标题：谷歌母公司执行董事长施密特明年1月卸任：他给谷歌...
码报:和创金服房平：再过三五年会
啪啪啪讯12月21日消息，近日和创金服CEO房平在接受啪啪啪采访中...
码报:外媒：腾讯悄悄打造中国迪斯
（原标题：China's Tencent Has Quietly Built An Entertainment Empire That Wes...
wzatv:CBNData消费大数据报告：90后是
啪啪啪讯 12月20日消息，今日CBNData根据过去一年里对中国大消费...

热点内容