传统 CNN中,80% 的参数存在于全链接层,而 DAN 摒弃了全链接,使得 DAN 相比传统 CNN 模型拥有更少的参数,同时大幅减少的参数可加速模型的训练速度。另外,全局池化带来了另一个优势即最终的图像表示(512 维)相比传统全链接层(4096 维)有了更低的维度,有利于模型的可扩展性以处理海量(Large-scale)数据。 此外,为了集成多层信息(Multiple layer ensemble),在 DAN 基础上我们提出了可端到端训练的 DAN+。具体而言,是对 ReLU5_2 层的深度描述子做上述同样操作,得到对应于 ReLU5_2 的图像表示,将其与 Pool5 层的 DAN 得到的图像表示进行二次级联,最终的向量维度为 2048 维。
除 DAN 和 DAN+ 外,在视觉模态中,我们还利用了著名的残差网络(Residual Networks)作为模型集成的另一部分。 音频模态 语音处理中的一种常用的特征为MFCC特征,j2直播,在竞赛模型中,我们首先从视频中提取原始语音作为输入数据,之后对其抽取MFCC特征。在此需要指出的是,抽取MFCC过程的一个副产品是一种名为logfbank特征,如下图所示:
在抽取 logfbank 和 MFCC 特征后,我们同样采取 mini-batch 形式的训练方式训练线性回归器(Linear regression)。在竞赛中,我们发现 logfbank 相比 MFCC有更优秀的预测效果,如下图所示。其纵轴为回归错误率(越低越好),其横轴为训练轮数,可以发现 logfbank 在最终的回归错误率上相比 MFCC 有近 0.5% 的提升。
于是我们选取 logfbank 特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限,我们在比赛中未使用语音处理领域的深度学习模型。不过,这也是后续可以提高模型性能的一个重要途径。 模态融合(Modality ensemble) 待两个模态的模型训练完毕,可以得到不同模态不同模型的性格特质预测结果,比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果,如图:
竞赛结果 比赛中,我们对一个视频抽取 100 帧/张图像作为其视觉模态的输入,对应的原始音频作为抽取 logfbank 特征的语料。训练阶段,针对视觉模态,其 100 张图像共享对应的性格特质真实标记;预测阶段,其 100 张图像的平均预测值将作为该视频视觉模态的预测结果。 经下表对比,开奖,可以清楚看到,DAN 相比 VGG-Face,由于没有了冗余的全链接层,其参数只有 VGG-Face 的约十分之一,而回归预测准确率却优于传统 VGG 模型,同时特征维度大大减少。此外,相比ResNet,我们提出的模型 DAN 和 DAN+ 也有不俗表现。此外,在模型预测速度上,DAN 和 DAN+ 也快于 VGG 和 ResNet。
模态集成后,我们在五个性格特质预测上取得了四个结果的第一,同时我们也取得了总成绩的冠军。
模型分析 最后,我们将模型最后一层卷积/池化的特征做了可视化。可以发现 ResNet 仅仅将“注意力”聚焦在了视频中的人物上,而我们的 DAN 和 DAN+ 不仅可以“注意”到人,同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是,其余参赛队均做了人脸检测等预处理操作,从而将人物从视频中“抠”出,但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”,一个人所处的环境(尤其是卧室、办公室等私人场所)往往可以从侧面反映一个人的性格特性。
参考文献 (责任编辑:本港台直播) |