本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】手把手教你用TensorFlow实现看图说话 | 教程+代码(3)

时间:2017-03-30 22:55来源:报码现场 作者:118开奖 点击:
为避免这种情况,一个解决办法是使用一种叫做“集束搜索(Beam Search)”的算法。该算法迭代地使用k个长度为t的最佳句子集合来生成长度为t+1的候选句

  为避免这种情况,一个解决办法是使用一种叫做“集束搜索(Beam Search)”的算法。该算法迭代地使用k个长度为t的最佳句子集合来生成长度为t+1的候选句子,并且能够自动找到最优的k值。这个算法在易于处理推理计算的同时,也在探索生成更合适的标题长度。在下面的示例中,在搜索每个垂直时间步长的粗体字路径中,此算法能够列出一系列k=2的最佳候选句子。

  

wzatv:【j2开奖】手把手教你用TensorFlow实现看图说话 | 教程+代码

  局限性和讨论

  神经网络实现的图像描述生成器,为学习从图像映射到自然语言图像描述提供了一个有用的框架。通过对大量图像和对应标题的集合进行训练,该模型能够从视觉特征中捕获相关的语义信息。

  然而,使用静态图像时,字幕生成器将专注于提取对图像分类有用的图像特征,而不一定是对字幕生成有用的特征。为了提高每个特征中所包含相关任务信息的数量,我们可以将图像嵌入模型,即用于编码特征的VGG-16网络,来作为字幕生成模型进行训练,使网络在反向传播过程中对图像编码器进行微调,以更好地实现字幕生成的功能。

  此外,如果我们真正仔细研读生成的字幕序列,我们会注意到都是比较普通而且变化不大的句子。拿如下的图像作为例子:

  

wzatv:【j2开奖】手把手教你用TensorFlow实现看图说话 | 教程+代码

  一只长颈鹿站在树的旁边

  此图片的对应生成字幕是“长颈鹿站在树旁边”。但是如果我们观察其他图片,我们可能会注意到,对于任何带有长颈鹿照片,它可能都会生成标题“一只长颈鹿站在树的旁边”,因为在训练集中,带有长颈鹿的图像样本经常出现在树林附近。

  后续工作

  首先,如果你想改进这里字幕生成的模型,可以看看谷歌的开源项目Show and Tell network,是利用MS COCO数据集和一个三层图像嵌入模型进行训练生成的预测网络。

  目前最先进的图像字幕模型引入了视觉注意机制,其允许模型关注图像中特定的区域并且生成字幕时选择性地关注特定类别的信息。

  此外,如果您对这种最先进的字幕生成功能实现感兴趣,请查看Yoshua Bengio的论文:Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention。

  量子位整理了文中相关各种资源的链接,在量子位公众号对话界面回复“图像描述生成”,我们会把这些链接发给你。

  另外,量子位新建了一个机器学习入门群,欢迎加小助手的微信: qbitbot,注明“加入门群”并介绍一下你自己,如果符合要求,我们会拉你入群。

  扫码强行关注『量子位』

  追踪人工智能领域最劲内容

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容