码报:如何把业务问题变成机器学习的问题？_本港台直播_J2开奖直播

机器学习想要转化价值，最关键的一步是什么？

一个业务问题，埋坑无数，该如何巧妙转化，转变为机器学习的问题？

要平衡机器学习开发人力和时间成本，怎样才能找到最优产出比？

在范式大学首节公开课上，针对以上问题，第四范式联合创始人，产品负责人田枫，基于丰富的专业从业经验，系统化梳理了解决之道。

大家好，我是第四范式的联合创始人田枫，很高兴在这里和大家分享机器学习的 MVP 模型！

我们曾经在第四范式知乎专栏上发过一篇文章《年薪百万的机器学习专家，为什么不产生价值？》。文中的机器学习专家花了大量的时间搭建平台，做数据的清洗、处理与机器学习建模，却没有带来公司所期望的价值。问题出在哪里了呢？基于第四范式在机器学习工业应用方面的大量成功案例和经验，我们今天就来分析一下，想用机器学习提升业务价值，在搭建平台、处理数据、训练算法之前，真正要做的第一步应该是什么？我们今天不谈技术，不谈算法，不谈平台，但是今天聊的东西却是机器学习产生价值过程中，最关键的步骤之一。

这次分享我们会从几个方面分析这个问题：

第一，机器学习是不是万能良药？我们首先需要想清楚,机器学习作为特别牛的技术，它能解决什么样的问题。

第二，一个业务问题，可能有各种千奇百怪的坑，假设我们初步判定可以通过机器学习来解决他，那么应该通过怎样的转化，避开这些坑，把业务问题变成机器学习的问题。

第三，如果有一个好的可以转化成机器学习的问题，我怎么去设计机器学习的开发节奏，估算它的投入产出比，如何分阶段去推动问题的建模和应用。

这就是我今天要介绍的，机器学习的MVP。机器学习的最小可用产品

现在的互联网技术，接受的一个概念是最小可用产品，MVP，就是开发团队、设计团队用最小的成本代价，最大程度去验证产品的可行性。这个产品的可行性，是指这个需求是否真实存在，一个产品满足需求的方式是不是对的。

机器学习也是一样的，我们做机器学习的投入是长期的、持续的，带来的收入和回报也是巨大的，在开始之前，我们一定会希望以比较低的成本知道：现在引入机器学习是否可以影响我们所面对的业务，产生价值的潜力有多大。

那么把一个业务真正用机器学习做之前，我们可以用两步，做一个机器学习的 MVP：

第一步：我们要选择正确的业务问题，并不是所有的问题都可以套在机器学习的框架里，有些适合机器学习解决，有些不适合机器学习解决。在任何的技术项目管理中，用差的方法解决好的问题，一定优于用好的方法解决错误的问题。

第二步：当我们找到一个机器学习可以解决的问题后，我如何通过最小的时间和人力代价，去证明机器学习可以解决它，带来满意的投入产出比。

选择正确的问题：从分类器开始

首先我们看看机器学习擅长解决什么问题。我举一个例子，就是周志华老师的西瓜书讲的例子，它很经典，也很简单，还很深刻，这个问题是说我要判断一个西瓜是好的还是不好的。

这个问题的业务场景是什么呢，一个西瓜，我怎么在不交易、不打开的情况下，就知道它是好的还是不好的。如果我知道，我就可以用同样的价钱买到更好的西瓜；而如果我是瓜商，有了一套标准之后，我就可以更好的管理我的货品。

回到这个问题，一个西瓜是好的还是不好的，这是典型的机器学习二分类问题。首先我们要找到，判断这个西瓜好不好有哪些可以用到的数据。我们不能把买卖西瓜之后的数据放进去分析，比如买了西瓜之后，我打开就知道好不好了，那么这个就没有价值。

所以我必须在不破坏西瓜的前提下，这时候能用到的数据是西瓜的产地、西瓜的纹路、重量、比重、敲击西瓜的声音是浑浊还是清脆、西瓜皮的质感等等，这些不打开西瓜的情况就知道的数据。

刚刚我们的目标已经讲得很清楚了，好的还是不好的，好的是 1，不好的是 0，甚至我还可以定义一个评分，0 到 1之间的一个数，但总体而言我可以设定一个机器学习的目标，我们称之为 Label。

选择正确的问题：真实世界模型

这看起来是一个很简单的场景，好像一旦我们具备了这样的数据，就可以尝试建立机器学习模型了。然而在现实中，当我们想用机器学习来解决实际问题时，也会这么简单么？真实世界中往往是有很多陷阱的。这些陷阱可能有什么呢？

第一，西瓜好不好，是怎么定义的？是大？还是甜？皮厚不厚？瓤脆不脆？如果建立这个模型是为了西瓜的售卖，这些可能都是评价因素，模型学习的样本也都需要基于这个标准来建立。如果我们仅仅是基于西瓜大不大来定义样本，而实际的应用场景是综合判断西瓜好不好，那么可能会得不到想要的好的结果。

(责任编辑：本港台直播)