选自The Next Platform 机器之心编译 参与:李亚洲、杜夏德 如今机器学习的应用虽然越来越普遍,但如同其他新兴应用领域一样,直播,一定会有一些障碍。对于企业来说,官僚化的批准流程、隐私保护、部门壁垒、价值周期长是其在部署机器学习时的主要障碍。 即使在分析工作复杂的组织中,机器学习也存在「专业孤立性」问题。例如,银行中的反金融犯罪部门可能使用先进的技术进行反洗钱;而信用风险团队使用完全不同的、不兼容的工具来预测贷款违约,并基于风险设定价位;而财政部门却又使用另一工具预测现金流。同时,消费服务和分行运作根本就不用机器学习,因为缺乏专业知识和软件。这些部门经常不彼此合作,使得难以为成员、流程和技术建立标准。这种软件的拼接集合提高了全公司应用机器学习的总体拥有成本(TCO)。从外,团队的孤立也使得高层难以开始机器学习。 为了支持数字化转型,机器学习必须要做三件事: 彻底的转换企业商业流程:市场、销售、财务、人力资源、供应链等等; 在全企业支持数据、用户和负载; 融合企业技术堆栈; Carolina Healthcare System、Cisco 和 PayPal 的例子说明了机器学习转换业务流程的潜力。在许多企业中,这种转换仍处于早期阶段。从平台架构的角度来看,机器学习需要与支撑业务流程的软件平台融合,支持不同背景的众多用户,以及支持不同的项目。 扩展到企业级数据意味着许多不同的事。对支持全公司分析的数据仓库的看法迷惑着大部分公司。从实际来看,机器学习软件必须要能与不同的数据平台对接;消化不同格式的数据:有结构的、半结构的和无结构的;它必须能利用「高」(众多记录)和「宽」(许多列)的数据,并且能使用流数据。 最后,机器学习软件必须要与公司优选的技术堆栈融合。这意味着遵守安全协议;在优选的数据平台上的可操作性;符合操作系统的标准;虚拟化技术等等其他技术。 数据科学家的短缺 有一个普遍的认知就是企业缺乏数据科学家。麦肯锡的一份报告指出这种缺乏将会持续到 2018 年;Venture Beat、华尔街日报等多家媒体都曾报道过数据科学家的缺乏;哈佛商业评论表示要么不找要么降低对数据科学家的标准,因为真正的数据科学家都是独角兽。 招聘难的问题不只是简单的供应与需求的问题。麦肯锡几年前的报告预测缺乏理解大数据的管理层,只不过比数据科学家缺失的差额小而已。学位课程和 MOOC 公开课每年产出数千新鲜的数据科学家。公司可以将机器学习项目推送到中国和印度等国家,因为在其他国家中,咨询公司就掌握了大量的有先进水平的分析师团队。 缺乏专业标准和专业证书造成最大的招聘挑战。如今正在为数据科学家建立专业标准,却没有被普遍接受的标准。每个人都可以自称数据科学家。在 O'Reilly Media 发布的 2016 数据科学薪资调查报告中,29% 的调查对象自称数据科学家,但却说他们花费较少或不花费时间做机器学习项目,也不使用标准的机器学习工具。 对数据科学家合适的角色也不确定。在招聘经理找到带有机器学习技术和经验的人后,实际的工作可能完全不同。在许多公司中,带有数据科学家 title 的人的实际角色是信息检索:使用查询工具保证数据平台的数据安全,从而让用户能在 Tableau 或 Excel 上浏览(O'Reilly 的调查显示 SQL 是最流行的工具)。 这样的误解损害了团队的积极性和激励机制。Stack Overflow 最近的一项调查显示创新和「建立有极大意义的东西」是机器学习专业人士的关键动力,要比其他条例更有激励性。因为一个机器学习人员知道如何使用 SQL 就把他放到「data broker」的角色,这是一种人力资源的误用。 价值的体现需要长久时间 根据 Gartner 的调查,负责高级分析的管理层说建立一个预测模型大约花费 52 天。(Gartner 对高级分析的定义包括统计、描述、预测数据挖掘、模拟和优化。)报告时间线从几天到几月各有不同。管理层都把「开发模型的速度」作为选择高级分析平台的顶级标准,仅次于使用方便度。 管理层想知道:为什么建立且部署预测模型需要这么久的时间?其实有许多原因: 数据难以获得; 数据污染; 传统的机器学习工具不能扩展到大数据; 管理部门批准部署模型的速度太慢,充满官僚主义; 公司对模型部署缺乏明确的流程或技术标准; (责任编辑:本港台直播) |