2017-08-12 16:53 来源:36氪 人工智能 /操作系统 编者按:人工智能和机器学习最近被炒作得非常厉害。但是这个东西不是开箱即用,需要打下坚实的基础才能应用。数据科学顾问,前Jawbone数据副总裁及LinkedIn数据科学家Monica Rogati对此提出了各个组织应用AI的需求层次论。指出先要解决了数据素养、数据采集和基础设施这些基本需求之后才能去考虑AI这个顶层的自我实现需求。 就像发展迅速的技术一样,AI也激发了大规模的FOMO(害怕错过)、FUD(恐、惑、疑)和不和。其中一些是应该的,也有一些不是——但这个行业正在留意。从秘密的硬件初创企业到金融技术巨头乃至于上市公司,各个团队都在忙碌地实施自己的AI战略。这一切都归结到一个关键且高风险的问题:“我们会怎么使用AI和机器学习来让我们做的事情变得更好?” 通常公司都还没有为AI做好准备。也许他们招聘了自己的第一位数据科学家但却达不到想要的效果,或者也许数据素养并不是他们文化的核心。但最常见的情形是透明还没有建立起基础而设施去实施最基本的数据科学算法和操作,更不用说机器学习了。 作为数据科学/AI顾问,我必须无数次地传达这一信息,过去2年尤其如此。其他人也表示同意。在大家都对你所在的领域充满着兴奋之情是做一个泼冷水的人是很困难的,尤其是如果你也分享着这种兴奋时。还有你应该怎么去告诉那些公司,说如果没有(或者成为)精英——也就是自我任命的看门人的话是不可能为AI做好准备的呢? 这里是一个引起大家最多共鸣的一个解释: 可以把AI看作是需求金字塔的顶端。是的,自我实现(AI)是非常棒的,但你首先需要食物、水和庇护所(数据素养、数据采集和基础设施)。 你的数据需要有牢靠的基础,然后才可以高效地运用AI和机器学习。 基本需求:你能算吗? 金字塔的底部是数据采集。你需要什么样的数据?你又有什么样的数据?如果是面向用户的产品,你有没有记录所有相关的用户交互?如果产品是传感器,数据是从哪儿来的,怎么来?记录一种尚未物联化的交互有多容易?毕竟,拥有合适的数据集是机器学习最近能取得进展的关键。 其次,要弄清楚数据流是如何流经系统的?你有没有可靠的数据流处理系统或者ETL(提取转换加载)?数据存放在哪里?访问和分析这些数据有多容易?Jay Kreps一直都在说(有10年的时间了)可靠的数据流是任何数据处理方面事情的关键。(附注:我正在寻找这句话的确切出处,结果在他的硕士论文《我喜欢日志》中找到了。然后我注意到他在一段话之后做出了这个马斯洛的需求层次论的比较,开奖,并以“值得注意的是”来作为附注。说到相关工作,后来我又看到了Hilary Mason和Chris Wiggings的精彩文章,讲的是数据科学家应该做什么事情。几天前,Sean Taylor披露了自己的数据科学需求金字塔,当然这跟这里的金字塔是完全不同的。) 只有当你有了数据之后,才可以对数据进行探索和转换。这里的工作包括臭名卓著的“数据清洗”,这是数据科学领域被低估的一项工作,这一块我得另起一篇文章来谈。当你发现你失去了一大块数据,你的传感器不可靠,某次版本变更意味着你的事件被丢失,你对某个标志产生了误解时——你就得回过头来确保金字塔的基础是牢靠的。 当你可以可靠地探索和清洗数据时,你就可以进行传统上被认为是BI或分析方面的事情:定义要跟踪的指标,其季候性以及对不同因素的敏感性。也需要进行一些艰苦的用户细分的工作,去看看会不会有什么东西冒出来。然而,既然你的目标是AI,你现在要搭建的是随后被认为是特征的东西,以供将来吸收进你的机器学习模型里面。在这个阶段,你还知道了你打算要预测或者学习什么,你还可以开始通过生成标签(自动或者手工的方式)来准备你的训练数据。 这个阶段也是你找到自己最令人兴奋和引人注目的数据故事的时候——但这也是另一篇文章的主题了。 好了,现在我能算了。接下来呢? 我们有了训练数据了——那是不是现在可以进行机器学习了呢?也许吧,如果你是想在内部进行客户流失率预测的话;但如果结果是面向客户的答案就是否定的。我们需要进行A/B测试(不管是如何的原始)或者有准备好的实验框架,这样才能逐步部署以避免灾难,并在改变影响每个人之前对改变的效果进行粗略的估计。这也是将非常简单的基线部署到位的合适时机(对于推荐系统来说,基线系统可以是“最热门”,然后是“细分用户市场的最热门”——这就是非常烦人但有效的“个性化之前先用老一套”)。 (责任编辑:本港台直播) |