【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享(2)_本港台直播_J2开奖直播

　　传统 CNN中，80% 的参数存在于全链接层，而 DAN 摒弃了全链接，使得 DAN 相比传统 CNN 模型拥有更少的参数，同时大幅减少的参数可加速模型的训练速度。另外，全局池化带来了另一个优势即最终的图像表示（512 维）相比传统全链接层（4096 维）有了更低的维度，有利于模型的可扩展性以处理海量（Large-scale）数据。

　　此外，为了集成多层信息（Multiple layer ensemble），在 DAN 基础上我们提出了可端到端训练的 DAN+。具体而言，是对 ReLU5_2 层的深度描述子做上述同样操作，得到对应于 ReLU5_2 的图像表示，将其与 Pool5 层的 DAN 得到的图像表示进行二次级联，最终的向量维度为 2048 维。

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　除 DAN 和 DAN+ 外，在视觉模态中，我们还利用了著名的残差网络（Residual Networks）作为模型集成的另一部分。

　　音频模态

　　语音处理中的一种常用的特征为MFCC特征，j2直播，在竞赛模型中，我们首先从视频中提取原始语音作为输入数据，之后对其抽取MFCC特征。在此需要指出的是，抽取MFCC过程的一个副产品是一种名为logfbank特征，如下图所示：

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　在抽取 logfbank 和 MFCC 特征后，我们同样采取 mini-batch 形式的训练方式训练线性回归器（Linear regression）。在竞赛中，我们发现 logfbank 相比 MFCC有更优秀的预测效果，如下图所示。其纵轴为回归错误率（越低越好），其横轴为训练轮数，可以发现 logfbank 在最终的回归错误率上相比 MFCC 有近 0.5% 的提升。

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　于是我们选取 logfbank 特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限，我们在比赛中未使用语音处理领域的深度学习模型。不过，这也是后续可以提高模型性能的一个重要途径。

　　模态融合（Modality ensemble）

　　待两个模态的模型训练完毕，可以得到不同模态不同模型的性格特质预测结果，比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果，如图：

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　竞赛结果

　　比赛中，我们对一个视频抽取 100 帧／张图像作为其视觉模态的输入，对应的原始音频作为抽取 logfbank 特征的语料。训练阶段，针对视觉模态，其 100 张图像共享对应的性格特质真实标记；预测阶段，其 100 张图像的平均预测值将作为该视频视觉模态的预测结果。

　　经下表对比，开奖，可以清楚看到，DAN 相比 VGG-Face，由于没有了冗余的全链接层，其参数只有 VGG-Face 的约十分之一，而回归预测准确率却优于传统 VGG 模型，同时特征维度大大减少。此外，相比ResNet，我们提出的模型 DAN 和 DAN+ 也有不俗表现。此外，在模型预测速度上，DAN 和 DAN+ 也快于 VGG 和 ResNet。

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　模态集成后，我们在五个性格特质预测上取得了四个结果的第一，同时我们也取得了总成绩的冠军。

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　模型分析

　　最后，我们将模型最后一层卷积／池化的特征做了可视化。可以发现 ResNet 仅仅将“注意力”聚焦在了视频中的人物上，而我们的 DAN 和 DAN+ 不仅可以“注意”到人，同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是，其余参赛队均做了人脸检测等预处理操作，从而将人物从视频中“抠”出，但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”，一个人所处的环境（尤其是卧室、办公室等私人场所）往往可以从侧面反映一个人的性格特性。

【j2开奖】南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　参考文献

(责任编辑：本港台直播)