wzatv:五个案例，三大心得，带你进阶深度学习实践应_本港台直播_J2开奖直播

关键字全网搜索最新排名

『量化投资』：排名第一

『量化』：排名第一

『机器学习』：排名第四

我们会再接再厉

成为全网优质的金融、技术类公众号

不谈理论，只谈实战。

当我们需要用深度学习处理现实问题时，除了相关的技术和数据，你还需要掌握一系列的小诀窍，并将这些技巧用在级联模型、智能增强、合理的评价标准、建立可重用的训练管道、有效推断与减小模型大小等等方面。

本文由深度学习的实践者，位于柏林的创业公司Merantix所著，五个案例，三大心得，带你在深度学习的应用之路上快速打怪升级。

近年来，人工智能正迅速崛起，这主要归功于深度学习的成功。

深度神经网络的突破来自三大因素的驱动：海量的训练数据、性能强劲的计算架构，以及学术研究上的相关进展。

正是因为这三大因素，深度学习系统在图像分类、面部识别等任务上，不仅表现开始优于各类经典方法，而且超过人类的水平。这一切，为那些用深度学习来解决实际问题的颠覆性新业务创造了无限可能。

位于柏林的Merantix，致力于研究这样的新型商业案例，目前这些案例是来自汽车、医疗、金融业和广告等行业。

wzatv:五个案例，三大心得，带你进阶深度学习实践应

学术世界往往不同于现实

如今，神经网络的训练正变得前所未有地容易。但这并不是说，把指导教程的代码拿出来就能直接服务于应用。值得注意的是，许多最为重要的使用诀窍极少在学术文献中被讨论，但它们对产品的成功至关重要。

wzatv:五个案例，三大心得，带你进阶深度学习实践应

把深度学习用到实际问题中时会遇到很多麻烦（via:pinsdaddy.com）

因此，我认为领会这方面的技巧和诀窍，对于那些打算在实际业务中应用深度学习以的人会有所帮助。

在本文中，我想分享的是三个比较关键的心得，它们在我们Merantix用深度学习解决实际问题的过程中起到了很大的作用：

心得 I：预训练的重要价值

心得 II：实际标注分配的注意事项

心得 III：理解黑箱模型

一点声明：

本文中的方法并不代表全部，还有很多其他的重要诀窍。

一般来说，这里的心得不仅适用于深度学习，而且适用于其他的机器学习算法。

所有这些心得都不特别针对对某一行业。

本文所涉及的问题大多都适用于监督式学习。

本文基于我5月10日在柏林人工智能大会Berlin.AI上的演讲修改而成。

演讲PPT

https://www.slideshare.net/RasmusRothe/3-learnings-from-applying-deep-learning-to-real-world-problems

心得 I：预训练的重要价值

在机器学习学术领域，人们并不关注数据集的获取。恰恰相反，为了比较深度学习与其他方法，并确保其中之一能够优于别的方法，标准做法是在某一标准数据集上，用相同的评价程序来衡量不同算法的性能。

然而，在真实情境中，重要的不在于证明新算法在性能上超过老算法1%，而在于构建出能准确解决目标任务的高性能系统。对所有机器学习系统来说，这一点就需要算法能够从中进行有效学习的标记训练。

不幸的是，就许多实际问题而言，获取到标注完备的训练数据成本十分高昂。为详尽说明这里的问题，我们来看两个案例：

案例一、医学影像检测：

如果要打造一个能在CT图像中检测人体淋巴结的系统，我们就需要有那些已经标注淋巴结的CT图像来进行训练。

而这是一项相当耗时的任务，因为CT图像是3D的，而需要从中标记出来的淋巴结结构又非常之小。

假定一位放射科医生的时薪是100美元，他每小时能认真标注好4张图，这就意味着标注一张图的成本是25美元，或说标注10000张图的成本是25万美元。

考虑到接近百分之百的更高诊断准确度，是需要有更多的医生来标注相同的图像才能确保的，针对该特定医学任务的训练数据获取成本，很容易就能超过25万美元。

案例二、信用评分：

如果要打造一个能对信用行为进行评分的系统，我们就需要知道哪些客户更有可能违约，这样我们才能对机器学习系统进行训练，以提前识别出这样的客户。问题在于，只有当违约发生时我们才能确定客户是不是真的违约。一个朴素的策略是给每个人发放贷款，比如说1万美元。但这意味着，每有一个人违约，我们都将损失1万美元。这就使得每个标注数据点的获取成本都非常昂贵。

显然，我们可以用一些窍门来降低这里的成本，但是总体来看，针对现实问题的注记数据获取成本都很昂贵。

我们该如何来解决这一问题呢？

预训练

wzatv:五个案例，三大心得，带你进阶深度学习实践应

预训练帮助（via:massivejoes.com）

(责任编辑：本港台直播)