历时三个月的上海 BOT 大数据应用大赛完满收官,其中「计算机视觉识别」子赛题吸引了来自世界各地的 100 支团队参赛,赛后为了促进计算机视觉技术与创新应用交流与合作,BOT 大赛组委会联合机器之心、清数 D-LAB,邀请大赛优胜团队导师及成员,围绕大赛解题思路和计算机视觉领域前沿技术及创新应用开展分享交流。 内容目录: Ⅰ 赛题解读 Ⅱ 冠军团队指导教授王金桥:大数据时代的视觉智能 Ⅲ 大唯团队陶进:小样本图像检测深度学习算法研究 Ⅳ DeeeeeeeeeepNet 团队陈朝才:深度学习在目标检测领域的应用 Ⅴ 现场精彩问答
Ⅰ 赛题解读 赛题好变态,这样的赛题是怎么来的? BOT 大赛组委会赛题组组长尹相志:计算机视觉识别赛题的设计解读 本次计算机识别初赛赛题的主题:基于机器视觉的认知情境理解 (CCRCV 2016, Congnitive Context Reasoning for Computer Vision) 赛题里的每一个子赛题的设计其实都代表了我们在机器视觉领域里的一次尝试或者实验。目前的机器视觉已经进入到深度学习阶段,那么机器视觉在当下人工智能的实现过程中,有哪些需要过的「坎」?大赛组委会特意把这些坎找出来,融入到赛题的设计中。组委会希望通过这样的方式,让参赛的团队联手对付这些难坎并期待有新的突破。即使只有一点小小的推进,对于整个人工智能来说都是很重要的突破。 具体到我们这次大赛的试题,我们的赛题来源于对现在机器视觉盲点的思考。虽然随着深度学习技术的发展,单纯的图像识别对于计算机来说已不是一件难事,甚至可以做得比人类更好,但前提是必须要给机器足够的训练图片。然而这个训练与人类的认知过程是背道而驰的,人类的小孩不会需要上万张图片才能够理解什么是狗,而且当他看到其他品种的狗,也许初期会叫错,但是慢慢会理解狗这个物种的抽象特征,进而理解狗——这一「概念」。因此未来不管是看到吉娃娃或是藏獒,都能认出这是「狗」。这正是现在机器视觉的盲点,人类可以对图片进行理解,透过小数据去进行泛化的推论,而目前机器视觉则专注于如何从大量数据中抽取图像特征,因此庞大的图片标注以及计算力的考量成为现在计算机视觉识别商业应用落地的最大障碍。本次计算机视觉识别初赛与复赛分别从不同角度来考量这个问题。 1. 初赛题目设计 大数据和神经网络之下的机器视觉图像分类,在分类的实现方式上已经有了非常大的改进并且在识别的准确率上有很大的突破,但是我们认为目前的分类做法只是让机器「识别」待分类对象,并不是「懂得」分类对象。即便今天机器认出了长颈鹿,但是长得像长颈鹿的其他对象并不在它的认知范围内。所以对于这个「坎」,我们希望图像分类的做法能够让机器真正懂得分类对象,而不只是识别,比如看到了一个长颈鹿的皮毛或者是斑点就认为这是长颈鹿。 「我们在这次大赛的命题上,从一开始就有很清楚的规划,我们希望参赛队能做出的分类是基于认知场景的,是对待分类对象的真正认知和理解,而不只是单纯的识别,这是我们在这次大赛赛题设计中的一个关键考虑点。」 如何透过认知解决无法穷举的变体,用一个实体去推演其所有的衍生物。 我们今天看到一个「实实在在」的动物,我要知道哪些布娃娃,哪些雕塑,哪些绘画,哪些抽象的形态都是来自于它,这个题目要求参赛选手要建立客观存在的实体和与之相关的抽象形态之的连接,是一个理解并推论的过程。 初赛有 7 个隐藏题目,这 7 个隐藏题目来自于我们机器视觉的实验。 第一个隐藏题目是扮演装扮,在这张图片里大家可以看出来,这是一只扮成长颈鹿的狗。所以机器需要有里跟外的概念,谁是本体,谁是附属,有了这样一个概念才有办法继续进行后面的处理。 (责任编辑:本港台直播) |