本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】微软研究院芮勇谈计算视觉:从感知到认知的长征(4)

时间:2016-09-27 20:36来源:118论坛 作者:j2开奖直播 点击:
第二个是我刚才给大家看了,在图片让计算机看,他可以理解生成一句话,我们后来其实又做了很多工作,把一段视频让计算机看,看完之后他也能够写出

  第二个是我刚才给大家看了,在图片让计算机看,他可以理解生成一句话,我们后来其实又做了很多工作,把一段视频让计算机看,看完之后他也能够写出这样一段话来,是基于深度学习的,因为视频是三维的东西,所以我们又做了一些跟三维有关系的一些工作,把整个这种圆的模型和视觉分析的模型放在一起,就可以生成一段文字描述视频。

  

  3、增加交互性

  第三个方向我们可以让计算机变得更有交互性。

  在座的有朋友用过小冰,很多人都跟小冰聊过天,小冰最早用文字跟大家聊天,之后你上传一个图片他还可以跟你的图片聊天,聊天要是有意思的话,如果光告诉你一个图片是什么,其实那是很没意思的,比如说我是一个用户,我给小冰去上传了这么一个图片,如果小冰告诉我说图片里面有两只猫,一只是花猫,一只是黑猫,这个一点意思都没有,所以他要有更深的语义的了解,小冰会说小眼神太犀利了,这对语义的理解又上一步。比如说这些图片上传给小冰,他会说这朵花黄色的都有点透明了,真美,第三幅图你经常去健身房八块肌肉都出来的时候,他会说大叔真努力,如果你的办公室在非常高楼层的时候,你上传他会告诉你,在顶层办公会是一种什么样的体验。这是对图片的理解的第三个方向。

  4、VQA

  第四个是更难的,第四个就是,他给计算机两个输入,一个是输入是两个图片,第二个输入是一句话,自行车框里装的是什么,给计算机看两个东西,一幅图片还有一个问题,这个问题是自行车框里装的是什么,这个问题就比较难了,但今天在一些例子的情况下,我们已经可以回答这样的问题了,这就是这几年计算机视觉突飞猛进的发展,让计算机知道图片最主要的亮点在什么地方,经过两层迭代他就会知道。

  这个东西怎么做呢,有四个方向:

  一个是我们需要对它的文字有好的描述,我们让计算机看这样几个图片,同时我问计算机一句话,在一片空旷的沙滩上,两个蓝色的沙滩椅中间是什么,这个其实真的是有点难度,那么经过我刚才说的那些算法,第一层是这样的,第二层最亮的在伞上面,在两个蓝色的沙滩椅的中间。还有一些例子,左上角那个例子,是什么在泥泞的土路上拉着一个人往前走,他知道是马,在这个右下角这个例子,让计算机看这么一副图片,问他一个问题,就是他待的这个角在什么地方,这是第四个方向。

  ◆ ◆

三座基石

  刚才跟大家一起探讨了计算机视觉过去50年从感知到认知的过程,从最早的特征提取,一步一步在往认知这方面走,今天已经取得了一些初步的成绩,atv,但其实今后还有很长的路要走,还做的不是那么准,看图写文章就更难了,还要接着做,因为我们知道一幅画怎么去把一个很复杂的环境场景能够描述出来,并且能够理解,这仍然是一件非常有挑战性的事情。

  

  那么怎么才能够做得好呢,在座的有很多朋友们是做大数据的,我觉得大数据的朋友们也好,计算机视觉的多媒体的朋友也好,我觉得大概有三个很重要的基石可以把这个事情做好:

  第一是机器学习本身,这几年适度学习很热,下一个更好的深度学习的算法在哪里,所以这是机器学习本身要进行的发展。

  第二个是Domain expertise,如果光是一批会做机器学习算法的人其实也做不出大的事情,还要要和具体的垂直行业相结合。比如说我们最近跟中科院的植物所有一些合作去识别花卉,春天或者秋天的时候看到一幅画很漂亮没有见过,我问问周围的花也没有人知道。今后如果手机一拍,告诉我这叫什么花,并且还告诉我最早是从南美洲引进的,这些对于我来说非常有意义。怎么能够做得好呢?光有机器学习的专家也不够,我们的植物学家他们知道怎么去分别一个花,直播,看它的花瓣,还是说它的茎他的叶等等,一个好的系统要有一个好的机器学习的算法,加上垂直行业专家的一些支持。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容