参与:Joni Chung、Xiang Chen、Nurhachu Null 最近,深度学习正随着训练过程简单化和准确化而变得越来越流行。对于旨在将研究转换为工业应用的研究者而言,这是一个至关重要的需求,例如机器人。 在本文中,作者提出了学习轻量级模型的一个非常新颖的方式,在实现精度超过 90% 的同时让训练速度快了一个数量级,让参数也少了一个数量级。作者主要使用了以下三个步骤: 1). 将预先训练好的模型适应于手头的任务中。 2). 在适应的模型中使用模型压缩技术来学习到一个具有更少参数的轻量级深度卷积神经网络(DCNN) 3). 作者将 K 个轻量级模型结合起来作为一个混合模型来提高轻量级模型的性能 简介 如今农业机器人的使用在稳步增长,例如图 1 所示的 AgBot Ⅱ [1],它帮助进行杂草检测和分类,以及 Harvey[2],可以用来进行检测和分割作物。目前的杂草分割方法是把形状和像素统计特征相结合,使用一个随机森林分类器来做分类。因为机器人平台的资源是有限的,所以很难部署深度卷积神经网络,并且用有限的数据去训练深度神经网络也是很困难的。使用最先进的网络所需要的计算能力是那些常见机器人负担不起的。这篇文章在复杂度和准确度之间做了一个折中,atv,并通过以下步骤解决了这个问题。首先,开发者把一个预先训练好的模型 Inception-v3[3] 适应在这个任务中。然后,他们使用模型压缩和「蒸馏」技术实现了指数级减少的参数。最后,基于之前的工作 [4],作者将一组 K 个轻量级模型结合成了一个混合模型来提升性能。 图 1:上边是 AgBot Ⅱ,它在执行杂草管理;下面是 Harvey,它是一个机器人甜椒收割机 这个方法在杂草分割上实现了可观的结果。Adapted-IV3 模型将准确率从 85.9% 提升到了 90.3。并且,对于 K=4 的轻量级深度卷积神经网络,它能够在使用更少的参数和更快的帧率时实现 90.3% 的准确率, 作者提供了一份详实的综述,论述了这个新颖思想的历史以及导致这个思想的方法。他们还提供了对目前的学习特征和模型压缩这两个技术的趋势的优劣分析。这不是这篇论文的重点,所以在这里不会深入细节。如果你对这篇论文感兴趣,它值得一读。 提出的方法 新方法主要是一个被分为三步的过程,这个过程在速度和内存大小之间做了精确的折中。这个方法被用来有效地解决诸如 AgBot II 这种机器人平台的杂草分割问题。滑动窗口的维度在彩色图像上是 81 × 81 × 3(因为彩色图像是三通道的),窗口中间的像素就被判断为要么是作物,要么是杂草。由于大多数机器人视觉问题都是稀疏问题,所以全连接神经网络(FCN)没有被使用。这篇论文中的稀疏问题指的是杂草分割仅仅需要对包含植被的像素做出分类,所以作者做出了关于他们为何没有使用全连接神经网络的解释,因为全连接神经网络是针对密集决策(对每一个像素)来设计和训练的。作者用图 2 解释了什么是稀疏问题。 图 2:一个具有挑战性的杂草 vs 作物的分割问题。上面的图片是原始图像,下面是对应的事实,其中绿色代表作物,红色代表杂草 现在我要简要地描述一下这三个摘要过程。 A. 迁移学习:适应复杂的预训练网络 就像在这个例子中一样,如果你只有有限的数据来训练一个神经网络,最好的方法就是拿一个预先训练好的模型并将其适应在你的任务中。有名的几个常被使用的预训练网络是:VGGnet、GoogleNet 等等。在这篇论文中,作者使用了 GoogleNet 的最新版本--Inception-v3,与其他模型相比,它是一个更小的模型。随后作者将原始图像进行了重采样,以让它与 Inception-v3 模型所需要的尺寸相匹配。 B. 模型压缩:训练轻量级深度卷积神经网络 图 3:对 AgNet 和 MiniInception DCNNs 的描述。上面是一个 AgNet 模型,它是一个由 8 个深度卷积层和一个全连接层组成的深度模型。模型的深度是轻量级的,并且拥有少于 25 万的参数。下面是 MiniInception 模型,它与 AgNet 有着类似的结构,然而,后者的卷积层结合了两个感知模型 (图中高亮的部分)。这使得模型会更加复杂,拥有 510 万个参数。 (责任编辑:本港台直播) |