大部分数据科学家花费较少的时间训练机器学习模型。在 2014 年,纽约时报报道根据采访和专业评测,数据科学家花费 50-80% 的时间收集并准备数据。今年早些时候,Gil Press 在 Forbes 上发表的文章称 CrowdFlower 的一份数据科学家的报告称调查对象花费 80% 的时间收集、清理和组织数据。 考虑到在企业数据仓库的投资,数据科学家需要花费如此多宝贵的时间来清洁数据是一件很惊人的事。有两个主要原因,首先,企业数据仓库注重对商业智能和性能管理使用案例的支持。这些使用案例是最容易获取的成果;他们有稳定的数据需求和大量的目标用户。然而,机器学习项目却要频繁处理企业数据库不支持的源数据。 第二,数据对机器学习项目的成果非常重要——「垃圾进入/垃圾清除」。有偏见或无效的数据产生有偏见或错误的预测。数据科学家的工作职责是高质量的输出,不能不理会数据问题说是「其他人的问题」。随着社会对算法中偏见的忧虑越来越多,我们期待对数据采集分析过程的可见性会成为普遍采用机器学习的重要因素。这种对责任的需求说明了数据科学家想要掌控数据的流程。 机器学习极其依赖计算基础设施,尤其是大数据。模型开发需要迭代测试和重复测试。2010 年之前,大部分基于机器学习软件的服务器都是单线程的,少有产品支持单机多核并行处理。(例如,SAS/STAT 中有超过 300 个程序,其中只有 22 个支持多线程处理。) 所有的这些顶级数据仓库提供商都在他们的分布式数据集中囊括机器学习引擎。Teradata 在 1989 年就引入了这一能力,IBM 在 1992 年做到这一点,微软 2000 年,Oracle 2003 年,Netezza 在 2006 年加入了机器学习。Greenplum 如今的品牌是 Apache MaDlib。2007 年独立的软件供应商 Fuzzy Logix 在多数据库平台上引入了机器学习库。嵌入 MPP 数据集中的机器学习引擎提供一些潜在的收益,包括减少数据移动,简化部署和一个 MPP 平台的性能。 然而,在实际中,少有数据科学家使用数据库内的机器学习工具。主要有几个原因:第一,减少数据移动意味着一个机器学习项目所需的所有数据就只能是数据库里面的,这很少出现;第二,如果该分析数据集支持消费者喜好的应用我们只能加快部署;MPP 数据仓库中的机器学习库也缺少可用特征,要么强制用户妥协,要么依赖自定义代码。最后,机器学习工作量会分散数据库管理员的注意力,因为它是一些粗笨的、难以预测的工作。许多公司降低数据库内机器学习的部署或者严格的将使用缩减到商业智能的精调上。 虽然关于公司审查模型的时间和通过流程的数据较少,但有证据显示机器学习很重要。负责的管理层要求将影响他们业务的机器学习透明化;没有银行会在不理解模型行为、测试并验证模型的情况下,冒险使用信用风险模型。 在受到监管的产业中,比如银行、保险、医疗中,法律审查是批准流程的一部分。例如在银行中,法律团队会评估信用风险模型从而保证模型没有显性或隐性的歧视效果,当然还有其他的合规问题。 机器学习经验较少的公司可能缺乏模型部署的明确流程。没有明确流程的情况下,每个项目就是一个自定义项目,所以每个 contributor 必须从头开始完成每个人物,缺少最佳实践和标准模块提供的指导。这会花费很长的时间,在一些公司中,不是一个预测模型可能要花费 6 个月或更长的时间。在如今快速前进的商业环境中,这是很长的一段时间。 企业机器学习的挑战 打破机器学习的各种「专业孤立性」是企业机器学习的关键目标。部门之间孤立行事会提高成本,阻碍投资,阻碍数字改革。 技术人员的短缺是管理者们普遍关心的首要问题,因为这阻碍了更广泛的机器学习部署。技术差距部分归因于对于数据科学家,缺少一个专业的标准,机器学习项目 contributor 的角色不清晰。这个技术差距在组织中产生了一个恶循环,atv,因为招聘经理在之前成功案例的情况下可能会无法判断某个人是否胜任机器学习的工作。管理人员的报告中提到,机器学习项目的周期太长是一个关键问题。机器学习项目需要花很长的时间才能产生价值,因为数据中有很多杂乱的东西,而且很难获取;因为传统的机器学习工具无法升级;因为部署模型的批准过程可能很复杂很官僚化;还因为很多组织缺少确定的模型部署程序和标准。 (责任编辑:本港台直播) |