本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力(5)

时间:2017-05-14 23:35来源:香港现场开奖 作者:本港台直播 点击:
我们提出了一种有效地检测图像中多个人 2D 姿态的方法。该方法使用非参数表征,我们将其称为部分亲和字段(PAF),能够学习将身体部分与图像中的个

  我们提出了一种有效地检测图像中多个人 2D 姿态的方法。该方法使用非参数表征,我们将其称为部分亲和字段(PAF),能够学习将身体部分与图像中的个体关联起来。该架构对全局环境进行编,允许一个贪心的自下而上的解析步骤(parsing step),保持高精度的同时,实现实时性能,无论图像中的人数有多少。这一架构旨在通过同一个顺序预测过程的两个分支,联合学习局部位置及其关联。我们的方法在 COCO 2016 关键点挑战赛中取得了第一名,与 MPII MultiPerson 基准此前最好的结果相比,我们的方法在性能和效率上都高出很多。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

 

  另外,我也简单介绍一下微软的工作。微软这次被CVPR接收的论文一共有30篇左右,跟我们在过去15年来每年在CVPR上发表的论文数大体相当,其中微软亚洲研究院有18篇,各个方向都有,3D建模、计算摄影,图像视频分析、理解、分割……覆盖率还是比较广的。其中一项视频人脸识别方面的研究,将视频中每一帧的人脸都提取出来,得出一个紧凑的固定长度的表征,更快更精确的进行人脸识别。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

摘要

  本文提出了一种用于视频人脸识别的神经聚合网络(Neural Aggregation Network,NAN)。网络将一个人脸部的视频或者一组数量不同的脸部图像数据集作为输入,并且生成一个紧凑(compact)、维度固定的特征表征,可用于识别。整个网络由两个模块组成。特征嵌入模块是一个深度卷积神经网络(CNN),它将每幅人脸图像都映射成一个特征向量。聚合模块由两个注意力模块(attention block)组成,它们能够自适应地聚合特征向量,在它们所覆盖的凸包(convex hull)中形成单个特征。由于注意力机制,聚合不会因图像顺序的变化而发生改变。我们的 NAN 由一个标准分类或验证损失训练,没有接收任何额外的监督信号,但我们发现它能够自动学习优选(advocate)高质量的脸部图像,同时排除(repel)低质量的图像,比如模糊、有遮挡和姿态不端(improperly exposed)的面部图像。在 IJB-A、YouTube Face、Celebrity-1000 视频脸部识别基准测试的实验表明,NAN 始终优于朴素聚合方法,并且实现了当前最高的精度。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

  图1. NAN视频面部识别的网络架构。所有输入面图像{xk}由具有深度CNN的特征嵌入模块处理,产生一组特征向量{fk}。接着这些特征被传递到聚合模块,产生单个128维向量r1表示输入的人脸图像。这种紧凑的表征(compact representation)可用于识别。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

  图6. YTF数据集上的典型示例,显示了我们的NAN计算的视频每帧的权重。每一行表示从视频采样5个帧,并根据其权重(图片左上角矩形中的数字)进行排序; 最右边的条形图显示所有帧的排序权重(高度缩放)。

  

 

  另一项是图像风格化的工作,这是第一次对图像风格做出了明确的物理和数值表征,我们能够将风格表征和图像内容分离出来,因此能用一个网络做很多不同的风格。现在学习一个风格只需要8分钟,转换的话只要几秒,我们正在把这个技术用应用到微软的产品中间去。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

  根据CCF多媒体技术专委会新技术选介17-04期的介绍,该论文采用了自编码器与滤波器组(filter bank)相结合的结构,能够同时对多种风格进行学习,将不同风格存储到各自对应的filter bank中,从而只使用一个前馈网络就能进行多种风格的迁移。

  网络分为三个部分:编码器E、解码器D和风格库(style bank)K。输入图像I经过编码器编码为特征图(feature map)F,接着分为两路:下侧的实线箭头代表自编码器支路,F不经过风格库处理,直接经过解码器解码,得到O,O应该与I相似;上侧的虚线箭头代表风格化支路,F经过代表第i种风格风格库Ki滤波后得到特征图Fi,再经过D解码为风格化后的结果Oi。

  

码报:【j2开奖】新智元专访CVPR2019程序主席微软华刚 :arXiv让双盲评审形同虚设,单纯刷分把研究机械化,暴力化

  图1. 网络分为3部分:编码器E、风格库K和解码器D。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容