摘要:视觉叙事(visual narrative)通常需要结合明确的信息和明智的遗漏,atv,并依赖观看者来补充缺失的信息。在漫画中,大多数时间和空间的运动都隐藏在画格(panel)之间的「天沟(gutter)」之中。为了理解故事,读者需要通过逻辑将画格联系到一起,通过一个叫做「闭合(closure)」的过程将未见过的动作推理出来。现在计算机已经能够描述自然图像的内容了,在这篇论文中,我们将检验它们是否能够理解由漫画书画格中风格化的艺术作品和对话所传递的闭合驱动的叙事(closure-driven narrative)。我们收集了一个数据集 COMICS,其包含了超过 120 万张画格(120 GB),这些画格都匹配了自动文本框转录。对 COMICS 的一次深度分析表明,文本和图像都无法单独讲清一个漫画故事,所以计算机必须理解这两种形式才能跟得上情节。我们引入了三个填空式的任务,这些任务要求模型在被给出了 n 张之前的画格作为背景的情况下,预测一个画格的叙事和以角色为中心的一些方面。多种神经网络架构在这些任务上的表现都不及人类基准,这表明 COMICS 同时包含了视觉和语言上的基本挑战。
应用于一个文本填空任务实例的图像-文本架构(image-text architecture)。预训练的图像特征与学习到的文本特征在一个分层的 LSTM 架构中结合起来构建出一个语境表征(context representation),然后该表征被用于评估候选文本。 ©本文为机器之心原创文章,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |