这个 AAT 的更新分为两部分,包括允许快速、可扩展迭代的 Lumos。在 FB 上分享的照片中有相当一部分包含人物,因此我们专注于涉及人物的自动图片描述。我们的 AI 团队收集了在 FB 上分享的包含人物的13万张公开照片作为样本。由人类标注者来为这些样本照片写出单行的描述,就像他们正在为视力受损的朋友描述照片一样。然后,我们利用这些标注构建了一个机器学习模型,可以无缝地推断照片中的人物的动作,以便在下游用于AAT。
图:people_riding_on_animal 模型。 Lumos 允许对此任务进行快速迭代,利用先前为另一个任务训练的模型中的标记样本的接口。例如“假如我们要训练一个“人在骑马”的分类器,并且想添加包含“马”(没有人骑)的图像样本,我们可以使用另一个模型的一部分标记样本,该模型学习把图片分类为是否包含“马”。
图:相同照片上的相似模型的分数比较。 Lumos 允许通过检索和聚类的组合来生成训练数据。给定一组标签或检索项,平台可以检索具有匹配那些标签的图片说明的部分公共照片。然后这些照片被按语义聚类,以便更快地进行标记——Lumos 用户可以选择把聚类标注为他们的用例的负面或正面样本,这可以在聚类级别进行或单独为聚类中的每个图像标注。这有助于使初始集的分类任务更易进行,随后是为了获得更高精度/查全率的分类器的迭代训练。 虽然 AAT 的应用很重要,因为它可以为 Facebook 的视障用户带来全新的访问体验,但还有其他只提供方便的应用,例如发掘新的搜索参数。 更具描述性的照片搜索技术 使用 Lumos,我们能够为我们的社区提供视觉层面的搜索。举个例子:当你看着照片回忆自己最开心的时光时,很难确切地想起来什么时候发生了什么事,以及是谁拍了那张照片。 今天,我们宣布我们已经建立了一个搜索系统,能够利用图像理解技术,对大量的信息进行排序,并快速、方便地把最相关的照片显示在最前面。举个例子,在搜索“black shirt photo”时,系统能够“看到”照片中是否有黑色的衬衣,并根据这个内容进行搜素,即使这些照片没有该信息的标记。 使用 Facebook 的自动图像分类器,就像在AAT示例中使用的那样,用户可以搜索朋友们共享的所有照片,这种搜索方式是基于图像的内容而不是寻找特定的标签或周围的文本。 为了确保搜索结果与查询条件相关,我们的系统必须能对实际的照片内容有很好的理解。我们的团队使用最先进的深度学习技术来处理数以十亿计的照片并理解他们的语义。具体来说,照片搜索团队使用以下信号来更好地为照片排序: 对象识别(Object recognition):底层的图像理解模型是一个有数百万个可学习的参数的深度神经网络。该网络建立在最先进的深度残差网络的顶部,使用数千万张带标记的照片进行对象识别的训练。它可以自动预测一系列丰富的概念,包括场景(例如花园),物体(例如汽车),动物(例如企鹅),地点和景点(例如金门大桥)和衣服物品(例如围巾)。 图像嵌入(Image embeddings):图像嵌入也生成高级语义特征,这是深度神经网络最后几层的输出的量化版本。这种丰富的信息对改善图片搜索结果很有用。
原始语义特征是高维的浮点向量,使用大量的存储空间以进行索引——尤其是我们要索引的照片量非常大。利用量化技术,特征被进一步压缩成几比特(bits),同时仍保留大部分语义。比特表征(bit representation)被用作照片的紧嵌入(compact embedding),并且可以直接用于排序,检索和重复照片删除。 构建此系统的一种方法是从图像中提取预测的概念和类别,然后解析查询项以链接到实体并提取概念,然后使用相似性函数来确定两组概念的相关性。 这种方法在开始阶段挺好,但团队没有止步于使用预测的图像类比,我们进一步使用查询和图像的共同嵌入,以显著提高精度和查全率。
我们把它作为一个排序问题的多模态学习。此外,我们还使用图像之间的相似性度量来确保图像搜索结果的多样性。 下一步是什么? (责任编辑:本港台直播) |