基本可以说,你所拥有的数据质量,定义了算法的质量。数据可能是嘈杂的、冲突的、有偏见的和缺失的,这会对问题解决有非常不良的影响。为了优化模型开发,你需要让数据更匹配要解决的问题,所以在早期最好有熟悉业务的数据科学家支持,逐步开发和收集解决问题所需的数据。不过这里需要注意的是,尽管业务决策者寻求的是具体建议和结果预测,但数据科学家往往只能提供相关的数据特征。只有真正把数据投入到机器学习系统,才能知道最终的结果会怎么样。 确定最小预测准确度 我们需要定义最小的预测准确度。不同的业务会有不同的准确度要求,例如在涉及医疗的业务中,有些任务需要高达 95% 以上的预测准确度。而在一个预测飞机票价的算法中,预测准确度高于 75% 就足以支持客户的预定任务。 打破数据孤岛,匿名化并共享数据 数据科学家小组经常面临一个障碍,在项目的谈判阶段就需要获取数据。对于业务人员来说,了解成本是决定是否开展机器学习业务的关键因素,但在看不到实际数据的情况下,几乎不可能准确估计预测准确度水平和实施价格,这往往是谈判瘫痪的原因。企业高管不能将商业敏感数据交给技术公司,而技术公司在获得数据之前几乎无法给出明确的答案。 我们的解决方案是提供数据子集而不是整个数据库,并将其匿名化。对于拥有数据科学家的公司,在不同的部门之间共享数据也是共同的管理挑战。过度管制的数据策略,或者仅仅在各部门囤积数据,会大大减缓数据分析的进程。这就是为什么要在更高层面给数据科学家和技术公司权限的原因。 好消息:即便数据不够好,它可以修复 即便你的数据集是凌乱的而非结构化,也有办法获得好的结果。今天,数据科学家已经准备好在起步阶段应用一些方法,重组、清洗数据集,并进一步优化得到更好的建模效果。
但坏消息是,数据科学家可能需要相当长的时间完成数据清洗并进行到建模阶段。如果你没有专业知识,是否应该提前自己处理?一般来说是否定的,因为即便自己做了,最后的数据集也可能需要重新处理。 步骤四:弥合技术与商业愿景之间的差距 如果你问数据科学家最喜欢的算法,你可能会听到决策树、神经网络、逻辑回归、Kernel 方法、主成分分析等。但是这些算法如何和商业愿景结合起来?你会需要一个懂得业务和基本数据分析知识的人,他能够在业务流程中找到机器学习能够起作用的指标,领导数据科学计划,扩大机器学习应用场景的选择,调整业务和技术的愿景。 一般来说有四种方法: 1、建立机器学习团队 机器学习科学家的价格要比普通程序员高很多。当你打算建立一个机器学习的团队时,一定要给他足够的支持,因为他需要创造性的工作才能发挥作用,而这往往会和很多组织的结构发生冲突。 2、公司内专家+机器学习平台 你可以使用公司已有的业务专家,在 1-2 个数据科学家的帮助下,就可以通过机器学习平台解决问题。这些平台往往拥有友好的界面,公司内部的业务专家可以通过短时间的培训学习如何使用,这样你就可以把数据计划扩展到更大的专家组,解决更多的公司业务问题。利益相关,我们推荐自家的产品:第四范式先知平台。 3、机器学习解决方案公司 现在市面上已经有一些机器学习解决方案公司了,但机器学习和传统的编程不同,因为它需要克服信任的门槛。机器学习解决方案的任务面临的挑战是共享数据。根据拥有的数据类型,也许你需要以某种方法匿名化,隐藏敏感信息,例如客户联系人和他们的位置。当然,当你匿名化的时候,你也要接受解决方案公司会难以使用外部数据来丰富数据集以得到更好的建模结果。 4、和大学院校、研究机构合作 大学院校、研究机构已经有很多数据科学的研究生和博士,atv,他们大多拥有建立机器学习模型的能力。不过和高校研究机构合作的费用一般会比较贵。 步骤五:模型过时了,需要更新 (责任编辑:本港台直播) |