可以想见,它们还能训练计算机了解物理可能的概念或不可能发生的概念,从而让计算机拥有更多常识。Richard Sochar 说,这可能就是这一项目中最重要的一面。
Visual Genome 是一个数据集,知识库,不断努力把结构化的图像概念和语言连接起来 和建立了两个被人工智能研究者广泛用来教会机器分类物体的数据库的李飞飞相似,李佳也着手了另一个重要多媒体数据库的建立。2016 年,李佳 ACM 论文YFCC100M: the new data in multimeesearch介绍了 Yahoo Flickr Creative Commons 100 Million Dataseta(YFCC100M)数据集,这是一个包含令人关注且科学上实用的数据集的参考库,也是有史以来最庞大的公共多媒体集合,包含总计 1 亿个媒体对象(大约 9920 万张照片,80 万个视频)和标签,它们全都是上传至 Flickr 并根据 CC 商用或非商用许可证发布。与许多数据集一样,YFCC100M 也处于不断演进之中。YFCC100M 数据集克服了影响现有多媒体数据集的许多问题,例如在形态、元数据、许可以及最主要的体积大小方面。 四 除了数据集方面的重要贡献,李佳在图像识别和场景理解领域也做出了自己的贡献。下图给出了 Semantic Scholar 统计的李佳的学术影响力和影响关系,可以看到,李飞飞和李佳的研究合作关系非常紧密。
李佳发表过的其它一些重要论文,涉及高层特征分析、场景理解等多个方向。尤其是在 2010 年,带有李佳的姓名的论文出现在了 NIPS、ECCV、CVPR 等顶级学术会议上,其中一些研究结果达到了当时的最佳水平,甚至有的已经成为了后来进一步研究的常用方法。 比如在 NIPS 2010 上,李佳等人(其他作者包括李飞飞、邢波)在论文 Object Bank: A High-Level Image Representation for Scene Classification and Semantic Feature Sparsification 中提出的 Object Bank 描述方法。这种方法的主要思想是在更高的层面上提取出一张图片中尽可能多的物体的信息,将其组合起来,使其有助于场景的分类(尽管低水平特征在场景分类以及物体识别中有着比较好的应用,但其包含的语义信息却更少)。用 Object 作为特征,计算图像对不同特征的响应,并根据其响应情况进行分类。该方法不仅能够用于图像分类,还能说明图像中存在哪些种类的 Object。
而在复杂场景理解方面,李佳等研究者的另一项 NIPS 2010 研究 Large Margin Learning of Upstream Scene Understanding Models 试图带来一些进步。在这篇论文中,研究者提出了一种最大边界(max-margin)和最大似然学习(max-likelihood learning)的联合方法来解决复杂场景的理解问题,其中隐主题发现和预测模型估计是紧密耦合的,并且得到了很好的平衡。通过使用一个变分 EM 流程,这个优化问题得到了有效的解决,其能迭代式地解决在线损失增强的 SVM。 另外在场景分类方面。李佳等研究者在 ECCV 2010 的论文Objects as Attributes for Scene Classification 中提出了将物体用作场景属性以进行场景分类的方法。这些表征带有高层面语义信息,使其更加适合高层面的视觉识别任务。该研究表明我们可以使用支持向量机等已有的分类器来在物体层面上进行场景分类等高层面的视觉任务。在当时的标准下,该方法的表现超越了之前的其它方法。 场景中的内容也是李佳的研究目标之一。在 CVPR 2010 上,李佳第一作者的论文 Building and Using a Semantivisual Image Hierarchy 提出了一种通过整合图像和标签信息来自动发现「语义视觉(semantivisual)」图像层次的新方法。该方法可结合图像的语义和视觉信息来有效创建图像层次,且相对于其它的分层方法,本论文所提出的语义视觉层次更有意义、更精确。 结语 在刚刚结束不久的谷歌 I/O 开发者大会上,Google Lens 引发不少关注。除了拍照识物,还能随便扫描一家餐馆,然后自动在 Google 的数据库里找到对应资料显示出来,包括点名、菜式、评分、打烊时间等。Google Photos 也变得更加聪明。利用机器学习技术,它能提醒用户自动与照片中的人共享照片 ,据说未来还将整合 Google Lens 的图像识别能力,提供一系列新特性,比如识别照片中的电话号码。 (责任编辑:本港台直播) |