数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据),就像我刚才所说的,它可能与「学习」没有任何关系。但主要的区别在于数据科学覆盖整个数据处理,并非只是算法的或统计类分支。细说之,数据科学也包括: 数据集成(data integration) 分布式架构(distributed architecture) 自动机器学习(automating machine learning) 数据可视化(data visualization) dashboards 和 BI 数据工程(data engineering) 产品模式中的部署(deployment in production mode) 自动的、数据驱动的决策(automated, data-driven decisions) 当然,在许多公司内数据科学家只专注这些流程中的一个。 对于这篇文章,技术顾问 Suresh Babu 给出了一个评论,机器之心将其编译整合到了下面: 这篇文章说明了解使用机器/计算机来处理类似人类决策的任务的统计学习的基本术语是件很麻烦的事。 但文章中「当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,atv直播,就是深度学习。」这样的说话看起来却有些随意任性。 当过去计算机/机器还不够友好,没有得到广泛使用的时候,统计学家和数据科学家的工作和现在这个领域的工作有很大的不同。比如说,当制造业开始使用计算机辅助后,生产速度和量都发生了巨大的变化——但它仍然是制造业。用制造机器来做原本人类做的程序化工作的想法最早来自 19 世纪初 Jacquard 和 Bouchon 等人。而 Jacquard 织布机的工作方式和现在计算机控制的织布机的工作方式基本相同。 现在的数据科学是一个知识体系,囊括了统计学和计算方法等等(而且在不同的具体领域不同学科的比例也不一样)。 机器学习(或使用了其它的术语,比如深度学习、认知计算)是让机器像人类一样思考和推理,基本上而言是指通过人工的方法(所以也叫人工智能)来代替人类天生的自然智能——涉及到的任务从简单到复杂都有。比如,无人驾驶汽车(目前)正在模仿人类的驾驶,驾驶条件也是人类在自然情况下会遇到的——我说「目前」是因为也许未来人类将很少能够直接驾驶机器,「驾驶(drive)」这个词本身都可能会改变含义。 这个领域里面也有些滑稽可笑的事情,比如一些基本的东西(比如一个下国际象棋或围棋的算法)被认为可以解释人脑的工作方式。就我们目前的知识水平而言,光是解释鸟或鱼的大脑的工作方式就已经非常困难了——这说明我们还没有真正理解学习的机制。为什么果蝇只需几百个神经元就能做到这么多事情?这还是神经科学的一个未解之谜。而认知是什么以及其在自然环境下是如何工作的也是一个数据科学傲慢地认为自己能解决的重大难题。(不管怎样,降维是一种无监督学习的方法。) 在很多方面,工具以及我们使用工具所做的事情自人类诞生以来就在引导着人类的学习。但这就扯远了。 原文链接: ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |