本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】GMIS 2017嘉宾李佳:从Snapchat到谷歌,人工智能领域的「Another Badass Wom(3)

时间:2017-05-25 04:04来源:天下彩论坛 作者:118KJ 点击:
李佳的领英中写着这样一句话「人工智能民主化(Democratize AI)」,或许为她在数据集建设方面的工作做了最好的总结。正如李飞飞所说,数据是民主化的

李佳的领英中写着这样一句话「人工智能民主化(Democratize AI)」,或许为她在数据集建设方面的工作做了最好的总结。正如李飞飞所说,数据是民主化的另一部分,直播,像人类一样,人工智能需要大量数据为自我发展提供洞见。因此,数据集是人工智能需要克服的最大障碍中的一个。

当被问及如何评价 Visual Genome 时,李佳说「这是升级版的 ImageNet。」数据集的搭建,往往包含着参与者对所处领域现状和未来的思考。

2010 年到 2017 年,计算机视觉研究的主要进步发生在感知领域,比如物体识别、图像标注、物体检测等,我们也有了应用产品,比如谷歌照片、行人检测系统等。接下来,更重要的课题是认知方面。如果说 ImageNet 是参与者对 2016 年之前深度学习研究状态的思考和判断,那么,接下来计算机视觉的研究方向是什么?

李飞飞认为,语言中的很大一部分都是有关描述视觉世界的。视觉在交流和语言等方面占据着很重要的地位,我们讲故事、辨别事物、区分视频类别都是在进行图像识别。因此,将计算机视觉和语言结合在一起会非常有趣。「一个人坐在办公室里,但布局是怎样的,那个人是谁,他在干什么,周围有什么物体,在发生着什么事?」

在分析更复杂场景的任务中,深度学习很有可能将扮演关键角色。但是,技术会对数据提出更多的要求。因为理解一个视觉场景(visual scene)不只是要理解单独的一个个物体。物体之间的关系也能提供丰富的有关这个场景的语义信息(semantic information)。

尽管感知任务方面进展显著,比如图像分类,但是,计算机仍无法很好完成认知任务,比如图像描述以及问答。认知不仅仅是识别任务的核心,对视觉内容进行推理也离不开认知。但是,在认知任务中,被用来理解图像丰富内容的模型的训练数据集,仍然是那些被设用来解决认知任务的数据集。然而,要在漂亮完成认知任务,模型就要搞理解图像中物体之间的关系。比如,当被问道「这个人骑的什么交通工具?」,计算机需要识别出图像中物体,以及骑(人,车)与牵引(马,车)的关系,这样才能做出正确的回答:人坐马车。

谷歌、Facebook 和其它公司正在推进人工智能算法解析视觉场景的能力。2014 年,谷歌发布的研究展示了一种能够在多种精度上为图像提供基本说明的算法。Facebook 也展示过一个能够回答有关图像的基本问题的问答系统。有趣的是,2017 年 IJCAI 计算机和思想奖获得者 Devi Parikh 也是从事 VQA 研究。

「我们也正在搭建(从理解)到语言的桥梁,因为交流的方式并不是将数字分配到像素上——你需要将感知和认知与语言连接起来。」2016 初,李佳参与了 Visual Genome 项目(Visual genome: Connecting language and vision using crowdsourced dense image annotations),旨在帮助研究人员为这种关系建模。研究人员收集了物体、特征、以及关系的密集标注,用来学习这些模型。较之于 ImageNet(也由 Stanford 大学维护),Visual Genome 图像标签更为丰富,包括名字、图片的不同细节,以及在对象和动作信息之间的关系,语义信息更丰富,可用以拓展更加丰富的基于图像及语义信息的人工智能应用。

目前,这个数据集包括 108249 张图片、420 万区域内容描述(Region Deions)、170 万图像内容问答(Visual Question Answers)、210 万对象案例(Object Instances)、180 万属性(Attributes)、180 万关系(Relationships)。我们规范转化了从物体、属性、关系、区域描述里的名词短语和问答对到 WordNet 同义词集的关系。这些注释代表了图像描述、物体、属性、关系和问答里最密集、规模最大的数据集。

这是第一个能够提供结构化地对图片进行形式化表示的数据集,在这种形式下能够大量用于 NLP 的基于知识的展示中。「这个数据集为两种模式结合与新模型测试提供了一个新的可扩展的方法。」

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容