第二个隐藏题目是图片里有两种动物,我们一开始就没有跟他们说一张图里只有一种动物,我们有的在图片里面放两只,而且有的是抱在怀里,几乎是看不到的,两只的话就可以得到比较高的分数。 第三个隐藏题目是特殊品种,这个长得像拖把的其实是一只天竺鼠,我们也是后来在收集图片时才知道原来有这种物种。在狗的图片集里我们把全世界最丑的狗也都放进去了,甚至丑的都不具狗形了。其实这些都是个体的变异,怎样去从这些个体的变异中识别出其中的差别是我们这个题目的考察点。 第四个隐藏题目是微小线索,我个人一直很好奇机器学习到底会怎样去看待那些肉眼几乎找不到动物在哪里的图片。我们人觉察到的微小线索跟机器的认知可能会有所不同,因为人不是从像素层去看动物特征的,而机器可以做到。这其实是一个很难的题目,不知道大家能不能看出,这张图片中有只猫,机器识别出来的概率有 15.7%,稍微差一点。由此看出,当图片的背景变得复杂,卷积层网络从底层抽取特征的时候会提取过度复杂的特征,而真正有用的与动物相关的特征所占有的比例太小,都会使机器降低辨识出动物的可能性。 大家能看出来这张图片里面有动物什么吗?很奇怪,我拿给十个人看,有九个人看不出来,开奖,剩下一个人告诉我说有鳄鱼。这是人跟机器的最大差别,人类的视觉成像会有错觉影响,事实上在这张图片里很难找到好大一只,右边有只长颈鹿,但是人可能就看不到。周围环境的背景色跟它太像了,所以机器学习到的视觉特征很容易与其他树叶交叠所学习到的特征产生误判,这也是比较容出错的地方。 第五个隐藏题目是高度抽象图片的识别,这个题目也是大家觉得很可怕的,atv直播,因为我们高度抽象的图片选取了几种不同类型的图片,包括非洲十万年前石壁上的原始壁画,这是我们煞费苦心收集的而且还特别对应到本次考题范围的动物中。另外,我们选取的剪纸和对联也是高度抽象化的东西。 第六个是堆叠。我们在设计考题时,想到既然卷积神经网络是从像素层级去提取特征,那如果要给卷积神经网络一个最大的考验该如何下手设计题目呢?我们的设想是,如果有一系列的东西,从像素层级来看都是一模一样的单元构建出来的,那么卷积神经网络在处理时是不是就没有像素层级的特征了?那有这样的物体吗?答案是乐高积木或者是游戏我的世界。一个同样的单元做出来的图片,不会有像素级的特征。我们可以看到,机器在这里面的表现也是稍微差一点点。 第七个是生成模型的图片识别。第 7 个隐藏赛题的出题概念是源于什么呢?中国有一个很古老的寓言是矛与盾,当一支最强的矛遇上一支最强的盾谁会赢?我们使用了强大的图片生成模型来对抗选手们的图像理解模型。在决赛里我们准备了许多风格迁移的图片。也就是,通过风格迁移的方式,我们将图片中的风格融合到既有的动物图片里去,这种融合可以做到无缝融合,对人来说分辨这样的图片也很勉强,但仍可以看出来原来的痕迹,对机器呢?在这些风格迁移图片里,我们不但做了图片风格不是很强烈的图片的迁移,还做了几个风格极为强烈的日本现代艺术家的作品的风格迁移图片,包括草间弥生和蜷川实花,他们的风格在人看来极为明显。当这样的迁移风格的照片出现的时候,所有的像素细节都被替换掉了,机器能够判断出来的可能性微乎其微,也因此出现了这次大赛第一次发生的状况。 这张图片答对率是 0,没有任何参赛选手的识别模型能识别出来,这张是融合了草间弥生作品的迁移图片,图中有两种动物,一个是猫,一个是天竺鼠,当草间弥生的风格迁移到这张原图的时候就会生成下图这样的图片,对我们人来说依旧能认得出来,但对机器则是遇到一个难题。我认为对于机器的视觉模型来说,最难的不是其他,就是来自图像生成模型。我们知道现在有很多如 GAN(generative adversarial networks) 这样的生成对抗模型,怎么样通过对抗的方式来让模型不断的进步,这也是未来视觉里很有趣的一个主题。 (责任编辑:本港台直播) |