首先,海量数据与数据标记之间的对比。海康威视在全国有很多的联合实验室,我们拥有非常大的数据入口。我们建立了庞大的数据标注团队,每天会产生源源不断的标注数据。算法性能基于这种数据有极大的提升。但是,我们所能标注的数据只是所获取的数据的冰山一角,大量的数据还沉在水面之下。如何有效地利用这些数据,让我们的算法进一步提升?这是我们一直在研究的课题。 当然,目前学术界最直接的做法就是无监督学习,也有非常有价值的方法,例如深层对话网络。但是现阶段,我们认为在大部分的应用场景下,无监督学习还是比不上有监督学习,刚才华博士也提到车牌识别中的一些深层对抗网络实验。在数据样本非常少的情况下的确可以运用深层对抗网络提升算法性能。但是很多场景下,无监督学习性能比不上有监督学习。 如何充分挖掘无标签数据中的信息?在训练中,我们用这些隐藏在无标签数据背后的信息做额外的信息反馈,包括特征提取模型的反馈,对标签预测模型的反馈和对损失函数的反馈。举个例子,假设我们在安防场景抓拍了很多人脸,并没有对这些人脸做逐一的标记,但是可能会获取抓拍场景信息,获取抓拍人群信息。当我们把这些额外的信息和标注信息进行融合训练时,可以极大地提升算法的泛化能力。
多传感器融合,应对复杂场景感知问题 第二个矛盾来自复杂场景与设备感知能力的矛盾。我们的智能硬件需要应对实际生活中复杂纷扰的环境。以摄像机为例,需要在各种恶劣的气侯条件下7×24小时工作。因此,在恶劣条件下形成的成像效果极大地影响后续人工智能算法的效果。如何解决这个问题?现在工业界有一个趋势:随着微电子工艺水平的上升,各类传感器的成本、功耗、体积都呈下降趋势,这也为产品上进行播散式融合提供了条件。多传感器的融合有很多种方式,以海康威视的黑光相机为例, 黑光相机是可见光和红外光相融合的产品,可以在380纳米到1000纳米的超宽光谱下进行成像,并且在超低光线下同时获得色彩信息和亮度信息。 相比星光相机,黑光相机无论在亮度、色彩、还原度、细节的支撑度上都有极大的提升。因此,我们认为,多传感器的融合可以很好地解决复杂环境下的感知问题。 使用线上增量学习,弥补前端设备计算力的差距 第三个矛盾是复杂模型和运算能力之间的矛盾。在实际生活中,为了应对各种应用场景,我们需要设计非常复杂的算法模型。但是设备尤其是前端设备的计算能力十分有限,就形成了复杂模型跟计算能力之间的矛盾。比如,我们的算法工程师设计了一套上百层的网络的算法,性能非常不错,但一算这个产品成本、功耗等,就发现实际应用很难。为了解决这个问题,我们构建了线上增量学习的方式。所谓线上增量学习,就是用各类场景下的数据训练一个复杂的通用模型。我们用前端采集设备采集数据,并对这些数据进行一定的难例标注,送到半监督学习框架内。半监督学习框架会基于我们的通用模型,针对场景做模型优化,同时进行裁剪和压缩,最终线上上传到我们的前端设备上。通过这种手段,我们可以在比较有限的计算资源下实现算法,并针对特定场景提升性能。
以上介绍了针对三种挑战的应对方法,海康威视在过去几年基于安防大数据发布一系列集成深度学习的产品,包括前端摄像机、后端服务器和门禁类产品。在这里挑选两款摄像机做一个介绍。第一款是人脸识别摄像机,过去几年人脸识别技术有很多应用场景,在这些应用场景中,安防场景可能是最复杂的场景,因为它需要适应各种光照条件、准假设条件和各种角度。人脸识别相机是多传感器融合的产品,融合了深度传感器、可见光传感器,并集成检测人脸识别的算法。摄像机通过人脸检测的反馈信息,实时调整摄像机的成像参数,从而生成最清晰的人脸图象,用深度传感器获取人脸姿态,并进行实时评估,最终挑选最优的人脸图象进行识别。这款相机把检测和识别同时放在里面。 (责任编辑:本港台直播) |