简单的启发法的难以击败甚至到令人惊讶的地步,它们会让你以端到端的方式调试系统,这不需要神秘的机器学习黑箱,在这中间要需要超参数调整。 到了这个时候,你可以部署一个非常简单的机器学习算法(比如逻辑回归或者分类等),然后考虑可能影响到你的结果的信号和特征。天气和普查数据是我的目标。还有,尽管深度学习很强大,但它不会自动帮你做这些事情。引入新的信号(特征建立,不是特征工程)可以大幅改善你的性能。在这里花些时间是值得的,即便身为数据科学家我们也对向上进入金字塔的更高层面感到兴奋。 发展AI! 数据有了。装置也有了。你的ETL开始发挥作用了。你的数据已经组织好并且清洗过了。你有了仪表盘,标签以及好的特征。你在测量合适的东西。你可以每天进行试验。你有了一个基线算法,可以进行端到端的调试,并且在生产中运转——而且你已经对它进行了十几次的变更。总之,你已经准备好了。接下来从自己铺开到利用专长于机器学习的公司,你可以继续去尝试最新最好的东西。你可能可以在生产方面取得巨大改进,或者也许不能。但最坏的情况下,你也能学到一些新的方法,形成自己的观点并有了上手体验,并且可以告诉你的投资者和客户自己在AI方面做了哪些努力而不是给人感觉像是个骗子。而在最好的情况下,你可以为用户、客户和公司带来巨大的不同——这是机器学习的一个真正的成功故事。 等一下,MVP、敏捷、精益等其他东西呢? 数据科学需求层次轮不是用1年的时间过度建设脱节的基础设施的借口。就像传统的最小可行产品(MVP)的开发套路一样,你也要从产品小的垂直板块开始,把它从端到端都做好了。比方说,在Jawbone,我们先从睡眠数据开始并搭建它的金字塔:工具手段,直播,ETL,清洗和组织,标签捕捉和定义,指标(大家美军每晚的睡眠时间是多长?小憩呢?什么是小憩?),跨细分市场分析,一直到数据故事和机器学习驱动数据产品(自动睡眠检测)。我们后来又把它延伸到步数,然后食物、天气、锻炼、社交网络以及沟通——每次做一个。在端到端做完一件事情之前我们并没有建设一个包罗万象的基础设施。 提出合适的问题,开发合适的产品 这只与如何可以有关,跟应该如何无关(出于实用主义或者道德伦理的原因)。 机器学习工具的希望 “等一下,Amazon API或者TensorFlow等别的开源库呢?其他在卖机器学习或者自动析取洞察和特征的工具的公司呢?” 所有这些都很出色很有用(一些公司最终的确煞费苦心地定制出来整个金字塔来展示自己的工作。这些人是英雄)。然而,鉴于当前AI炒作的强烈影响力,大家都试图把脏的、存在断层、跨越了数年且格式和意思不断改变的数据,那些尚未被理解的数据,那些结构化行不通的数据塞进去,还指望这些工具能够魔术般地处理好它们。也许将来有一天会是这种情况,我对朝着这个方向的努力举双手赞成。但在此之前,为你的AI金字塔打造好一个牢固的基础是值得的。 (责任编辑:本港台直播) |