本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】微软研究院芮勇谈计算视觉:从感知到认知的长征(2)

时间:2016-09-27 20:36来源:118论坛 作者:j2开奖直播 点击:
再往下的话,我能不能说给计算机看一幅图片,他不仅仅像我刚才提到的第三步,像第四步做出来的,让计算机看成图片之后自动生成人类可以理解的自然

  再往下的话,我能不能说给计算机看一幅图片,他不仅仅像我刚才提到的第三步,像第四步做出来的,让计算机看成图片之后自动生成人类可以理解的自然语言,就是生成这么一句话,这就是把自然语言和计算机视觉相结合。

  再往下走,有这么一幅图片,我们小时候做过看图写作文,说一定能够写出一篇有意义的作文,这就是一步一步从感知到认知的几个过程。

  最早做感知是你的纹理,色彩,形状,这个做计算机视觉的人也是干了一辈子,干了450年还出了一些比较好的结果,比如说这么一副图片给计算机去看,大家就知道哪几个点应该提取,哪个是不应该提取,等等这是一件事情。再往下,我们想知道这个图片它到底里面包含什么物体,我们叫做图片的分类。

  

  这个又包括三个小问题:

  第一个给计算机一幅图,他能够告诉我这图里面有一个小朋友有一只狗;

  第二个问题不仅仅能够告诉有一个小朋友,有一只狗,还能够告诉我他们坐在哪里;

  最后还能够告诉我这个象素在小朋友身上,还是在哪,一步比一步难。最后看图象的分类做计算机的人知道有一个比赛全球几乎所有的一流大学和大企业的研究院都参加这个,它是1000个类别,1000个类别你让计算机先学,都训练好,然后再测试的时候,给计算机看一个从来没有看过的图片,你告诉我这张图片是这1000个类别里面的哪一个,看似简单,实际上很难。我如果告诉你这1000个类别里面有120种狗,我都分不清楚,太厉害了。

  ◆ ◆

深度学习降低错误率

  那在2010年的时候,这个错误率就是全球排第一的冠军的错误率是28%,这是2010年。之后2010年也是20%几,直到2012年的时候,这个深度学习出来了,深度学习最早出来的是在0807年的时候,微软研究院几个同事,一下子把错误率降到30%。从来没有降这么快,就是因为他用了深度学习,那是在09年。

  2012年的时候深度学习进入了计算机视觉,进入之后一下子把错误率从25%,降到16%。之后每一年的冠军,都是他们做的。直到2014年的时候,这个斯坦福的博士就说,这个计算机似乎能力越来越大,错误率越来越低,我们人到底是什么样的错误率。他把自己关在屋子里面学习样本,之后他去做测试,错误率5.1%,这是非常高了,我们在座的都没有这个水平。去年年底我们微软研究院的同事做了一个很深的深度学习把错误率降到3.6%,这个超越了人类对图象分类的水平。

  

  为什么可以做这么好?在2012年的时候深度学习做到八层,我相信像梅院士还有别的诸位在890年代的时候都写过神经视觉网络,我当时也写过,当时隐含层只有一层,每层下来要求片导的,这是在算法上有问题。

  第二个是数据量太小,第三这个计算能力太低,当时在一台486上跑,今天都不可想象。今天这么大东西在486上跑几年都跑不完。2012年新的数据出来了,八层的隐含层的DAN也出来了,所以错误率在下降,到2015年我们做了152层的,人类历史上从来没有达到这么深,把错误率降到了3.5%,这个不是说你很容易就能够加一层的,在我们做到152层之前,全球所有的研究机构和大学做的最深的就是122层,这个要从算法上进行一些突破性的科研,比如说用这个去抓。因为这件事情,在2015年底的时候,参加三个分类项目都拿了第一名,并且比第二名高出很多。比这个更难的是我不仅仅知道这个小朋友,这个狗,我不仅仅知道他们在里面,我还知道他们在什么位置,这个基本上可以做到这样的程度。

  ◆ ◆

物体检测

  那么我们去年开始做这个物体检测的时候可以做到这个程度,这个图片已经是很复杂了,一把餐刀这么小的东西都可以被检测出来。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容