这是一个哈希的大规模图像检索,就是把一个图像通过各种变换,我们一个哈希检索做法是在 2014 年发表 fab,影响非常大,我们把这个代码已经开源了,已经被很多公司和企业应用,可以实现这种快速的三维重建以及快速的目标检索,基本上可以实现在一秒内亿级数据的海量查询。 基于图像视频的处理工作,是一个科学和工程深度结合的一个事情。它的数据就是你必须要对这个方法理解得非常深刻,你才能够针对这个方法去选取适合方法的数据,就是你的方法是解决哪个问题的,你根据这个问题去发现什么样的数据更适合它,你当前的这个方法对那些数据不适合。另外就是数据的清洗非常重要,你在准备数据的时候,这个需要大量经验的积累,因为它也是一个实验性的科学,就是说你在数据标注的时候,这个框是不是要标得特别紧凑,比如说你这个目标遮挡三分之一还是露出来一点,都是需要经验积累的。所以说包括这次 BOT 比赛他们数据标注里不是特别有经验,我们都会对数据进行一个清洗。数据清洗对最后算法性能的影响大概在 10% 到 20%。 从框架选取的角度来说,以不同的应用选取不同的框架。比如说你要用人脸的,ConvNet 的卷积方式更适合,你要想做简单的分类,或者是做一些跨平台的融合,TensorFlow 是大家关注最多的,而且我们现在每个框架基本上都用。另外 MX Net 本身的 Bug 比较多,大多数都是中国人,模型释放的比较少,如果你自己选择转模型就会有大量的损失。所以我建议你以 TensorFlow 为主,或者你做 OCR 或者是语音相关的,你要做时序相关的,一般这种 Touch 的也很多,就看你的应用方向,还有你最后的发布平台。 Ⅲ大唯团队陶进:小样本图像检测深度学习算法研究 1. 图像检测需要做一件什么样的事情 图像检测顾名思义,就是模拟人看图片,能够判断图中有什么物体以及这些物体在什么位置。简单来说,给一张有飞机的图片,图像检测需要做的事情是,首先要找出飞机所在的位置,然后对这些所在的位置进行判断里面的物体是什么。传统上做图像检测会把它分三步来做: 第一步是区域选择,这是为了支持目标位置的定位。 第二步是特征提取,当你把目标的位置定位之后,就可以进行图像特征提取,往往这一阶段对整个检测环境起到非常关键的作用。在特征提取时,边界信息的提取很重要,也是容易忽略掉的信息。 第三步是分类器分类,当我们获取到了整个特征的时候,最后一步会给分类器进行分类的操作。 2. 复赛赛题解析 超市商品分割分类的问题上,整个过程种最关键的难点是我们的训练样本量非常少,需要分类的种类非常多。我们把下面的数据统计出来,三大类里面,主办方给了我们 363 张图片,其中只有 336 张图片包含了有改进的图片框,后面依此类推。我们要识别 239 个主类,分别对应每个类别我们需要时间的数目。最后是我们做检测的人非常熟悉的一个词,Bounding Box 就是检测框,给了我们 1319 个。 (责任编辑:本港台直播) |