关键字全网搜索最新排名 『量化投资』:排名第一 『量 化』:排名第一 『机器学习』:排名第四 我们会再接再厉 成为全网优质的金融、技术类公众号 不谈理论,只谈实战。 当我们需要用深度学习处理现实问题时,除了相关的技术和数据,你还需要掌握一系列的小诀窍,并将这些技巧用在级联模型、智能增强、合理的评价标准、建立可重用的训练管道、有效推断与减小模型大小等等方面。 本文由深度学习的实践者,位于柏林的创业公司Merantix所著,五个案例,三大心得,带你在深度学习的应用之路上快速打怪升级。 近年来,人工智能正迅速崛起,这主要归功于深度学习的成功。 深度神经网络的突破来自三大因素的驱动:海量的训练数据、性能强劲的计算架构,以及学术研究上的相关进展。 正是因为这三大因素,深度学习系统在图像分类、面部识别等任务上,不仅表现开始优于各类经典方法,而且超过人类的水平。这一切,为那些用深度学习来解决实际问题的颠覆性新业务创造了无限可能。 位于柏林的Merantix,致力于研究这样的新型商业案例,目前这些案例是来自汽车、医疗、金融业和广告等行业。 学术世界往往不同于现实 如今,神经网络的训练正变得前所未有地容易。但这并不是说,把指导教程的代码拿出来就能直接服务于应用。值得注意的是,许多最为重要的使用诀窍极少在学术文献中被讨论,但它们对产品的成功至关重要。 把深度学习用到实际问题中时会遇到很多麻烦(via:pinsdaddy.com) 因此,我认为领会这方面的技巧和诀窍,对于那些打算在实际业务中应用深度学习以的人会有所帮助。 在本文中,我想分享的是三个比较关键的心得,它们在我们Merantix用深度学习解决实际问题的过程中起到了很大的作用: 心得 I:预训练的重要价值 心得 II:实际标注分配的注意事项 心得 III:理解黑箱模型 一点声明: 本文中的方法并不代表全部,还有很多其他的重要诀窍。 一般来说,这里的心得不仅适用于深度学习,而且适用于其他的机器学习算法。 所有这些心得都不特别针对对某一行业。 本文所涉及的问题大多都适用于监督式学习。 本文基于我5月10日在柏林人工智能大会Berlin.AI上的演讲修改而成。 演讲PPT https://www.slideshare.net/RasmusRothe/3-learnings-from-applying-deep-learning-to-real-world-problems 心得 I:预训练的重要价值 在机器学习学术领域,人们并不关注数据集的获取。恰恰相反,为了比较深度学习与其他方法,并确保其中之一能够优于别的方法,标准做法是在某一标准数据集上,用相同的评价程序来衡量不同算法的性能。 然而,在真实情境中,重要的不在于证明新算法在性能上超过老算法1%,而在于构建出能准确解决目标任务的高性能系统。对所有机器学习系统来说,这一点就需要算法能够从中进行有效学习的标记训练。 不幸的是,就许多实际问题而言,获取到标注完备的训练数据成本十分高昂。为详尽说明这里的问题,我们来看两个案例: 案例一、医学影像检测: 如果要打造一个能在CT图像中检测人体淋巴结的系统,我们就需要有那些已经标注淋巴结的CT图像来进行训练。 而这是一项相当耗时的任务,因为CT图像是3D的,而需要从中标记出来的淋巴结结构又非常之小。 假定一位放射科医生的时薪是100美元,他每小时能认真标注好4张图,这就意味着标注一张图的成本是25美元,或说标注10000张图的成本是25万美元。 考虑到接近百分之百的更高诊断准确度,是需要有更多的医生来标注相同的图像才能确保的,针对该特定医学任务的训练数据获取成本,很容易就能超过25万美元。 案例二、信用评分: 如果要打造一个能对信用行为进行评分的系统,我们就需要知道哪些客户更有可能违约,这样我们才能对机器学习系统进行训练,以提前识别出这样的客户。问题在于,只有当违约发生时我们才能确定客户是不是真的违约。一个朴素的策略是给每个人发放贷款,比如说1万美元。但这意味着,每有一个人违约,我们都将损失1万美元。这就使得每个标注数据点的获取成本都非常昂贵。 显然,我们可以用一些窍门来降低这里的成本,但是总体来看,针对现实问题的注记数据获取成本都很昂贵。 我们该如何来解决这一问题呢? 预训练 预训练帮助(via:massivejoes.com) (责任编辑:本港台直播) |