本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【组图】演讲 | BOT大赛计算机视觉赛题经验分享:赛题详解与思路分析(3)

时间:2017-01-20 16:11来源:本港台直播 作者:j2开奖直播 点击:
「 初赛的一个整体 思路 , 其实是帮助我们去理解现代的机器视觉能做到什么 , 不能做到什么 , 限制在哪里 。 我们只有认清楚了这些限制 , 才有可能

初赛的一个整体思路其实是帮助我们去理解现代的机器视觉能做到什么不能做到什么限制在哪里我们只有认清楚了这些限制才有可能让大家变得更好。」

2. 复赛题目设计

复赛主题侧重对机器视觉实际应用层面的考察 (初赛主要是基本理论的理解)。

有很多问题是抽象的,没有一个绝对的操作型的定义。也就是说,没有任何人可以告诉你什么是标准答案,这在人的世界里是很常见的,因为很多事情,一百个人有一百种看法,那么在这样的问题里机器如何去得到一个相对精准的判别呢?这是挑战之一,另外一个很重要的挑战是行车记录仪赛题中需要选手们预测行车标志,但其中有几个标志在我们提供的训练集照片里一张都没有出现过。这时候又该怎么办?

行车纪录器图像评估驾车操作场景

在这个赛题里面,我们希望要看到的是,当你去做端对端的学习时,你需要把整个复杂场景的转换逻辑或者是整个思路全部都依次排列在里面,你的模型得是一个泛用性的模型,否则你没有办法去处理这样的问题。

如果能够把问题做一个适度的化简拆解,这个问题就没有那么难。例如让许多选手们觉得困难的如何判断压线与逆向的问题,不直接让机器从整张照片去理解有没有压线,而是先解决车跟线之间的关系,再从车跟线的关系往外延伸。这个赛题里面主要是看大家能不能撇开对深度学习端到端实现的过度追求,有一些追求固然很好。但对于解决真实世界问题的时候,它不应该变成你的枷锁。

接下来这个是最大的难题,行车标志,我们当初附上了一张行车标志全图给选手,为什么给了一份标志全图?因为在所有图像里行车标志是不会变的,都有固定的外形。唯一有影响的是你的视角,还有就是呈现的远近。在这里可以用两个策略来解决,第一个策略,用深度学习方法来做,应该可以把这些图做一些 3D 的旋转、变形、色调的数据增强,从而来解决这一类的问题。第二可以不用深度学习,用传统的机器视觉中的模版比对可能效果会更好一些。

「我一直觉得新旧方法都有它的各自优缺点,怎么把新的去做新的擅长的,旧的去做旧的擅长的,数据量不够的情况下,新的方法可以通过数据增强来解决,或者可以请旧的方法来帮忙。我认为把这些方法做一些融合,这是有助于机器更好的来理解这个任务的一个重要方法。」

卖场货架自动计算产品货架占有率

货架这个题目是我们花费最多心思的,除了拍照片之外,我们拍回来的 1600 张照片,将近 12 个人去标了 2 两个多礼拜。这个题目的最大难点,其实在于要在给出的 1000 张训练集照片中,去识别 240 种的商品。我们当时在设计这道题的时候还考虑题目会不会过难,因此给选手许多参考性的材料,包括将多边形转换为 Mask 以及提供裁切过后的商品碎片。当我们给出裁剪干净的商品之后,能够对这些图片做数据增强的方法就有很多了。

报码:【j2开奖】演讲 | BOT大赛计算机视觉赛题经验分享:赛题详解与思路分析

「我们在这里其实考的是怎么样通过小样本进行学习,因为我们认为现在深度学习最大的问题还是在于样本数。」

3. 决赛题目设计

中文视觉智能问答

报码:【j2开奖】演讲 | BOT大赛计算机视觉赛题经验分享:赛题详解与思路分析

报码:【j2开奖】演讲 | BOT大赛计算机视觉赛题经验分享:赛题详解与思路分析

选手在做这道题的时候不可以用电脑屏幕把任何一个照片投出来,一投出来就算丧失资格。因此是在完全不知道图片内容的情况下,去回答这些中文的视觉智能问答,这也是我们希望未来可以继续的一个比较有意思的研究,希望有更多技术强大的团队们可以一起在这个领域钻研。未来的这种智能的对答,以前都是只注重在所谓的语料生成的方式来找到一些似人类的像鹦鹉学舌一样的回答。但是我认为通过图像的理解来产生一个有意义的回答,这是一个更有趣的东西,这是我们的第一次尝试,我也希望可以把它慢慢的扩充,包括一些有场景式的问答,也许下一次就是一个菜单,或者是一张地图。

Ⅱ冠军团队指导教授王金桥:大数据时代的视觉智能

1. 研究背景:视频语义理解

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容