2017-08-10 18:06 来源:IBM中国 设计 /操作系统 作者:Rob Thomas 和 Jean-François Puget 机器学习由Arthur Samuel在1959年首次定义,即“学习领域,使计算机能够在没有被明确编程的情况下学习”。换言之就是,这就是分析的自动化,从而能够让分析得以大规模应用。 在过去几十年来,分析一直是高度手工操作的行为,分析师基本上都是手动来梳理数千行的表单,现在正由技术变得自动化起来,基本上通过一些简单的按钮就能够实现操作。那么,如果机器学习是在1959年就已经被首次定义,那为什么直到现在才是抓住机会的时候? 答案很简单:经济因素。 下面的相对关系图可以解释这一点: (图注:过去十年,预算都被计算和数据占用,而现在是分析可以占主要部分) 自从机器学习被定义一直到过去 10 年内,机器学习的应用都受限于计算和数据获取以及准备等操作的成本。事实上,计算和数据耗尽了所有的预算,导致没有更多资金可以投入到真正推动价值的因素上,即获取可操作洞察的算法。 近些年,计算和数据的成本急剧下降,现在任何人都能够快速应用和探索机器学习。 快速适应 企业必须不断适应瞬息万变的业务环境:竞争者引入新产品,用户习惯改变,以及经济和政治环境改变等。这不是新变化,但是业务环境变化的速度在加快。对于为企业开发的技术解决方案来说,这种不断加快的变化节奏给企业增加了新的负担。 多年以来,应用开发人员已从周期最多可达数年的 V 形项目转向周期只有几月、几周,甚至常常只有几天的敏捷开发方法。这使得企业能够更快地适应其应用和服务需要,不管是零售商的销售预测,还是股票经纪商所需要的产品推荐系统,乃至备受期待的个性化医疗保健系统,都能够被满足。 这些场景以及其他类似场景,给机器学习创造了独特的机遇。诚然,机器学习本就是为适应这些问题的多变性而设计的。 首先,它将应用开发从编程转变为训练:应用开发人员使用新数据训练同一个应用,无需编写新代码。这是应用开发的一种根本性转变,因为每周,开奖,甚至每天都能够自动获得全新应用或者更新版本的应用。 这种转变是认知时代下的IT核心。 其次,机器学习促进了在数据所在位置(也就是最具业务价值的地方)自动生成可操作洞察。可以构建一些机器学习系统,从每一次的用户交互中学习,或者从物联网设备收集的新数据中学习。然后,这些系统基于最新可用数据生成输出。在传统 IT 开发中,即使使用了敏捷方法,也不可能做到这一点。 建立反馈循环 尽管大部分企业都已了解机器学习,但很少有企业付诸行动。他们要么因担心数据资产受到破坏而减缓进度,要么尝试一次之后就缩减投入,声称结果不尽人意。这些是常见的顾虑和考虑因素,但我们应该认识到,只要采用正确的方法,这些问题很容易解决。 首先看看数据。一个常见的误区是,认为只要有了数据,机器学习项目就会成功。数据不可或缺,但是机器学习需要明确的业务目标或结果。如果起初仅有很少或没有数据,但是拥有明确、可衡量的业务目标,则项目更可能成功。业务目标应规定相关数据的收集,还要指导机器学习模型的开发。此方法提供了一种评估模型有效性的机制。 机器学习项目的第二个误区是,认为它能一蹴而就。根据定义,机器学习是一个连续过程,所以项目在运行时必须考虑到这一点。 机器学习项目常常按如下方式运行: 1) 从收集数据和定义新业务目标开始。 2) 准备数据,因为最开始收集数据时通常并不会参考新业务目标。 3) 准备好数据后,对数据运行机器学习算法来生成模型。 4) 基于全新的、未使用过的数据评估该模型,验证它是否能从数据中获得合理的洞察。如果是,则将它部署到生产环境中,基于新数据执行预测。 这一典型方法很有价值,但是它受限于这样一个事实,即模型仅学习一次。您可能开发了一个不错的模型,但是不断变化的业务环境可能让它失去现实意义。 (责任编辑:本港台直播) |