原文来源:machinelearning.apple.com 「机器人圈」编译:BaymaxZ 今天,神经网络最成功的案例是监督训练。然而,为了实现高精度,训练集需要大量、多样化和准确地标注,这是非常昂贵的。标注大量数据的替代方法是使用来自模拟器的合成图像。这是廉价的,因为没有标签成本,但合成图像可能不够现实,导致实际测试图像的泛化差。为了缩小这个性能差距,我们开发了一种改进合成图像的方法,使其看起来更逼真。我们表明,这些精细图像上的训练模型可以显着提高各种机器学习任务的准确性。 概论 标准合成图像上的训练机器学习模型是有问题的,因为图像可能不够现实,导致模型学习仅在合成图像中呈现的细节,并且不能很好地概括真实图像。弥补合成图像和实际图像之间的差距的一种方法是改进模拟器,这通常是昂贵且困难的,即使最佳渲染算法仍然无法对真实图像中存在的所有细节进行建模。这种真实感的缺乏可能会导致模型超越合成图像中的“不切实际”的细节。而不是模拟器中的所有细节建模,我们可以从数据中学习吗?为此,我们开发了一种改进合成图像的方法,使其看起来更逼真(图1)。 图1.任务是学习一个模型,使用未标记的实际数据从模拟器改进合成图像的真实性,同时保留标注信息。 “提高真实感”的目标是使图像尽可能逼真以提高测试精度。这意味着我们要保留标注信息来训练机器学习模型。例如,图1中的注视方向应该被保留,并且不会产生任何伪影,因为机器学习模型可能会学会过度使用它们。我们学习一个深层神经网络,我们称之为“训练网络”,它处理合成图像以改善真实感。 要学习这样一个训练网络,我们需要一些真实的图像。选择要求具有像素方向对应的实际和合成图像对,或者具有标注的真实图像,比如在眼睛的情况下的目光信息。这可以说是一个更容易的问题,但这样的数据很难收集。要创建像素方向的对应关系,我们需要渲染与给定的真实图像对应的合成图像,或者捕获与渲染的合成图像相匹配的真实图像。我们可以学习这个映射,而不是像素方面的对应关系,还是真实图像的任何标签?如果是这样,我们可以生成一堆合成图像,捕获真实的眼睛图像,并且根本没有标记任何真实的图像,学习这个映射,使该方法在实践中便宜且易于应用。 为了以无监督方式学习我们的训练网络,atv,我们利用一个辅助鉴别网络,将真实和精细(或伪造)图像分为两类。训练网络试图欺骗这个鉴别网络,认为细化图像是真实的。两个网络交替运行,当鉴别器不能区分真实图像与假的图像时,训练停止。使用对抗鉴别网络的想法类似于将随机向量映射到图像的GAN(生成对抗网络[1])方法,使得生成的图像与真实的图像无法区分。我们的目标是训练一个精炼器网络—一个生成器—将合成图像映射到逼真的图像。图2显示了该方法的概述。 图2.我们的精炼器神经网络R最大限度地减少了局部对抗性损失和“自正规化”项的组合。 对抗性损失“欺骗”鉴别网络,D,它将图像分类为真实或精炼。自正规化项将合成和精细图像之间的图像差异最小化。精炼器网络和鉴别器网络交替更新。 我们如何保留标注? 除了生成逼真的图像之外,精炼器网络应该保留模拟器的标注信息。例如,对于目测估计,学习的变换不应该改变注视方向。该限制是启用使用模拟器标注使用精细图像的机器学习模型进行训练的重要组成部分。为了保留合成图像的标注,我们用自正规化L1损失补充对抗性损失,从而惩罚合成图像和精细图像之间的大变化。 我们如何防止人工因素? 进行本地更改 (责任编辑:本港台直播) |