以使用机器学习检测信用卡交易异常为例。用过去多年的交易来创建模型,异常指的是欺诈性交易。然后将此模型部署在一个支付系统中,让它在检测到异常时进行标记。这在短期内很有效,但是聪明的罪犯很快会认识到他们的诡计已被检测到。他们会不断调整,找到使用被盗信用卡信息的新方法。模型将无法检测出这些新方法,因为生成该模型的数据中没有包含这些方法。结果,模型有效性将下降。 解决方法是通过将模型预测结果与实际情况相比较,监视预测结果的有效性。例如,经过一定的延迟后,银行会知道哪些交易是欺诈性的,哪些不是。然后,可以将实际的欺诈性交易与机器学习模型检测到的异常相比较。通过这种比较,可以计算预测结果的准确性。 然后我们可以不断监视准确性,观察准确性是否下降。出现下降情况时,atv直播,就使用更新的数据刷新机器学习模型。这就是我们所谓的反馈循环。 参见下图: (图注:反馈循环) 当然,反馈循环不仅能够应用于欺诈检测。甚至在零售银行业务方面,我们也看到机器学习模型通过反馈循环不断演化,能做到: 自定义取款限额 跨投资组合优化税收考量 检测开支模式 接受或拒绝抵押和贷款 评估信贷限额 留住客户 提供情绪和新闻分析 打击身份盗窃 自动化文件审查 检测财务报表中的风险 向客户推荐其他产品 借助反馈循环,系统通过监视预测结果的有效性而不断学习,并在需要时重新训练。监视和使用收到的反馈是机器学习的核心。就像人类执行新任务、从错误中学习、调整行动一样,机器学习没什么不同。 DataFirst:成功三部曲 对于相信机器学习是分析旅程的核心组件的企业来说,需要一个经过测试且可重复的模型:方法论。与无数客户合作的经验,促使我们发明了一种我们称之为 DataFirst 的方法论。它是一种成功实现机器学习的循序渐进的方法。 阶段 1:数据评估 目的在于理解您的数据资产,验证满足机器学习的业务目标所需的所有数据都可用。如果不可用,可以立刻采取行动,引入与规定目标一致的新数据源(内部或外部)。 阶段 2:研讨会 研讨会的目标是确保机器学习项目的定义和范围一致。我们通常涵盖以下主题: 规定机器学习能做和不能做的事情 协商要使用哪些数据。 协商要用于评估结果的指标 探讨机器学习工作流(尤其是部署和反馈循环)将如何与其他 IT 系统和应用集成。 阶段 3:原型设计 原型设计的目的是利用实际数据展示机器学习的价值。它也将用于评估运行和操作已生产就绪的机器学习系统所需的性能和资源。设计完成后,原型往往是确保决策安全,构建生产就绪系统的关键。 在最近几个月,我们在全球启动了 5 个机器学习中心,在这些中心,我们引导客户完成 DataFirst 流程。 机器学习就是竞争优势 数据时代的领导者将在动态数据语料库的推动下,利用他们的资产开发出色的机器学习系统,获取有价值的洞察。差异化方法需要井然有序的流程,以及对基于反馈循环的差异化的关注。在现代业务环境中,数据不再是竞争优势的一个方面;它是竞争优势的基础。 (责任编辑:本港台直播) |