Lumos 允许通过检索和聚类的组合来生成训练数据。给定一组标签或搜索项,该平台可以检索匹配这些标签的字幕的公共图像的分数。这些图像随后被语义聚类,以便快速进行标记。Lumos 用户可以选择注释集群作为其用例的正选或反选例子,在集群级别或单独为集群中的每个图像进行手动标记。这有助于开始一项分类任务,随后通过迭代训练以获得更高精度/回忆的分类器。 AAT 应用非常重要,因为它可以为 Facebook 的视障用户带来更棒的访问体验,其他应用也能为用户提供一些方便之处,如发现一个新的搜索参数。 更具描述性的照片搜索 通过 Lumos,我们可以为整个社交网络提供视觉搜索功能。假如你在回想自己的美好记忆,你很难指出具体的事件,更不用说拍摄的人了。而通过 Lumos,我们构建了一个全新的搜索系统,它可以利用图理解序大量信息,让你可以轻松地搜索到自己想要的东西。换句话说,如果你搜索「穿黑色衬衫的照片」,系统可以「看到」哪些照片中出现了黑色衬衫,并将相关搜索结果呈现在你的眼前,即使这些图片并没有贴上相应的标签。 Facebook 的自动图像分类器,j2直播,就像 AAT 的例子中那样——通过图片的内容而不是标签来搜索你自己和朋友圈内的所有照片。 为了确保搜索结果与查询的内容有关,系统必须对照片的内容有很好的理解。因此,开发团队使用了最新的深度学习技术,在数十亿照片中学习特征以理解图片的内容。图片搜索团队主要使用了以下表示方法来让图片能有更好的排序结果: 对象识别:底层图像识别模型是一个深度神经网络,具有数百万可学习的参数。它构建在最先进的深度残差网络之上,使用了数千万张带有标记的图片进行了识别训练。它可以自动识别大量概念,包括场景(如花园)、物体(如汽车)、动物(如企鹅)、地区和经典(如金门大桥),也包括衣物(如围巾)。 图嵌入:系统同时生成高级语义特征,这是深度神经网络最后几层输出的量化版本。这些信息对于提升搜索结果准确性非常有用。 原始语义特征是高维浮动向量,它使用了大量的存储空间用于索引——尤其是当我们要索引大量照片时。通过利用量化技术,特征被进一步压缩成数个字节,同时仍保留绝大多数语义。被压缩的表征被用作照片的紧凑嵌入,并且可以直接用于排序,检索和删除重复内容等任务。 构建这种方式的办法是从图像中提取预测的概念和类别,然后解析搜索查询以链接实体并提取概念,最后使用两组概念之间的相似性函数来确定相关性。 这是一个好的开始,但开发团队并没有停止使用预测的图像类别:我们更进一步,使用联合嵌入对图像进行查询,显著提高了搜索和回忆精度。 我们把它作为一个多模态学习的排序问题。此外,我们还使用图像之间的相似性度量来确保图像搜索结果是多样化的。 展望下一步 Lumos 图像分类器的应用还需要大量团队通力协作。虽然目前的发展值得肯定,但我们仅仅触及了自动计算机视觉的表面,后面还有更长的路要走。随着计算机视觉模型越来越精细,Facebook 正在不断研究如何处理视频及其他能让人身临其境的表现形式,Lumos 将帮助我们以稳定、快速、可扩展的方式揭开所有这些可能性,它会为将来更为丰富的产品体验铺平道路。 原文链接:https://code.facebook.com/posts/1259786714075766/building-scalable-systems-to-understand-content/ ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |