码报:【j2开奖】微软研究院芮勇谈计算视觉：从感知到认知的长征(3)_本港台直播_J2开奖直播

　　这就是用深度学习做的非常好的结果。那比物体检测更难的一件事情是我希望他在每一个象素上都能够知道这个象素是属于哪一个物体的，这个东西我们如果真的能够做到它有什么用，今天无论是无人机也好，还是无人车也好，如果上面有摄象头都知道周围的环境是什么就可以做非常多的事情。给大家看一段视频，叫做象素级的精准识别。左边是输入的视频，右边是我们做物体检测的结果。天空，树，车，道路，小朋友，都可以分辨出来，这是在进入了从感知到认知的第二个阶段，第一个阶段是特殊提取，第二个阶段是物体的识别和象素级的分类。第三类要再进一步理解，什么是一个图片，什么叫做（英），其实是有什么物体，你对图片和内容要有更深的理解。

　　举一个例子我们今天有很多搜索引擎，我们想做什么呢，我们想有没有办法让计算机真正去理解这幅图片到底里面的内容是什么，如果能够做到这个，那这就是进一步对图象的理解。

　　我给大家举一个例子，比如说现在有一个图片，我要想测试一下，图灵测试，我待会会给大家看两段文字，上面这段文字显示的是说“一个人在网球场上拿着一只网球拍”，下面是说“这个人在网球场地上打一场比赛”，这两句话一个是让人看见这幅图片以后写的，另外一句话是让计算机看见这个图片写的，我们看看到底是上面这句话还是下面这句话？上面这句话是机器写的，基本上有一半人都猜错了，这个技术已经可以通过图灵测试。我们在做一个测试，上面这句话写的是“小河边停了一辆自行车”，下句话也是写的稍微文言了一点，大家觉得上面那句话是机器写的请举手，下面这句话是机器写的请举手？稍微多一点，我们看看上面这句话是机器写的，这个具体的问题已经可以通过图灵测试。

　　还有这幅图的例子，这里面有很多的工作要做，比如说故宫，长城，景山公园，白宫等等，这些很著名的景点你都要知道，还有名人你要知道，我们把全球100位最著名的人物都能够识别出来了，之后还有用深度学习的办法生成这句话。

　　◆◆ ◆

四大方向

今天已经从感知到认知的过程中已经走了这么一步，我觉得是挺大的一个里程碑，但是其实还可以有很多方向，今后我们再接着做，有很多方向都挺有意义的。

　　我这写了四个：

　　一个是在语义层次上他引申的一些语义计算机有没有办法知道；

　　第二给他看一段视频他是不是也能够看懂视频是什么意思；

　　第三让它更加有交互性，你跟聊天机器人聊天的时候，你给他上传一幅图片他会给你说什么；

　　第四挺学术的，也是最近一个很重要的计算机视觉方向大的研究方向，不让计算机看一幅图片，我问他一个具体的问题他能够回答出来。

　　1、Go Higher 语义层次上的引申

　　我们先看第一个，go higher。

　　在语义层面上让计算机理解之外的话，我们看计算机看了这幅画，这是奥巴马，后面是一群象，去年我们的计算机只能输出这么一句话，叫做一群象边上有一个人，因为去年还没有做全球100个名人的识别，去年只能做到一群象周围站了一个人，今年已经可以做到一群象周围站的是奥巴马。

　　但你如果让一个真正的人去看这幅画，如果大家对美国大选和美国政党有一些背景知识的话，其实这里面有很深的含义的，不是说奥巴马站在一群大象旁边这么简单，美国有两大政党，一个是共和党，共和党他的（英）是大象，民主党是驴，共和党的人和他在竞争，这幅画你给一个老美看的话，他这个引申的意思是说奥巴马被一批共和党的竞选者在追赶着。今天我们还没有办法做到这样，这背后需要大量的知识库。我们希望今后我们做到给计算看了这样一幅图片，说出这样的话。

　　2、看懂视频

(责任编辑：本港台直播)