本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:企业应该怎样选择数据科学机器学习平台?

时间:2017-06-04 20:23来源:668论坛 作者:本港台直播 点击:
参与:吴攀、黄小天、Nurhachu Null 一个弹性的数据科学平台(Data Science Platform)对于大型企业内的每个集中化数据科学团队都是不可或缺的。它能帮助团队在 PB 级尺度上对模型进行集

参与:吴攀、黄小天、Nurhachu Null

一个弹性的数据科学平台(Data Science Platform)对于大型企业内的每个集中化数据科学团队都是不可或缺的。它能帮助团队在 PB 级尺度上对模型进行集中化、再利用和产品化。本文作者为 Algorithmia 的 Ahmad AlNaimi。

你开发了一个 R/Python/Java 模型。它运行得很好。然后呢?

首先你的 CEO 要听闻机器学习,并且知道数据是新的石油。数据仓库团队中有个人刚提交了他 1PB Teradata 系统的预算,而 CIO 听说 FB 正在用 Hadoop 驱动商用存储服务,还超级便宜。这掀起了一场完美的风暴,你被指派去组建一个数据优先(data-first)的创新团队。于是你聘请了一个数据科学家团队,突然间所有人都很兴奋,都想从你那里得到一点数字魔法去谷歌化(Googlify)他们的生意。但你的数据科学家们并没有基础设施可用,只能把时间都花在构建执行程序的项目表上,所以投资回报率并不看好,这下大家又都来怪你没有对他们的商业盈亏(P&L)投入足够的核心技术了。- Vish Nandlall

在 PB 级尺度上分享、复用和运行模型并不属于数据科学家工作流的一部分。在企业环境中,这种低效率更是显眼,atv,因为数据科学家们的每一个工作步骤都需要和 IT 部门协作,导致连续部署流程的混乱(如果不是无法进行的话),可重用性也很低,并且这个痛点还会随着公司不同角落开始「谷歌化(Googlify)他们的业务」而滚雪球式地放大。

为了满足这种需求,数据科学和机器学习平台(Data Science & Machine Learning Platform)应运而生了。作为一个基础层,在它之上是三个内部利益相关体的合作:产品数据科学家、中心数据科学家和 IT 基础设施。

  

wzatv:企业应该怎样选择数据科学机器学习平台?

图 1:一个数据科学平台服务于三个利益相关体:产品、中心和基础设施。对于那些有着对机器学习不断增长的依赖性的复杂大型企业,这个系统是非常有必要的。

在这篇博文中,我们将讨论以下几个问题:

谁需要一个数据科学和机器学习平台(Data Science & Machine Learning Platform,DS & ML)?

数据科学和机器学习平台(Data Science & Machine Learning Platform)是什么?

如何区别不同的平台?

平台的实例

你需要一个数据科学平台(Data Science Platform)吗?

它并不适用于所有人。对于只有一两个用例的小团队,最好还是围绕共享和拓展来即兴创作自己的解决方案(或者使用私人托管方案)。但如果你是一个有很多内部客户的中心化团队,你很有可能面临着下面几种症状的困扰:

症状#1 你在分裂代

你的数据科学家构建出一个模型(比方说是基于 R 和 Python 的),想把它嵌入产品,用在一个网络或移动应用里。而你的后端功能是,本来用 Java 或 .NET 构建了基础架构,现在却只能用他们所选择的技术栈从头开始重写这个架构。结果你就有两个代库要调适和同步。随着构建模型数量的增加,这种低效率会加倍放大。

症状#2 你正在重新造轮子

不论是小到一个预处理的函数还是大到一个成熟的训练模型。你的团队产出的东西越多,在现有成员和以前的成员间就越有可能出现系统性的成果复制,尤其是项目。

症状#3 你很难雇佣到顶尖人才

你公司的每个角落都会产生要脱颖而出的数据科学或机器学习想法,但你只有少数几个真正出色的专家,他们一次也只能接受一项挑战。你本应雇佣更多的人,但数据科学家和机器学习天才是非常稀有的,而他们中的明星级人物的薪水堪比一个顶尖的美国国家橄榄球联盟(NFL)四分卫。

症状#4 你的云账单正在不断堆积(太多 P2 了!)

你在一个网络服务器后端部署了一个模型。在深度学习(deep learning)世界中你很可能想要一个配置好现成 GPU 的机器,比如说 AWS EC2(或着 Azure N-Series VM)上的 P2 实例。为每个产品化的深度学习模型来运行这些机器很容易就花费高昂,尤其对于棘手的工作任务或难以预测的模式。

数据科学和机器学习平台(Data Science & Machine Learning Platform)是什么?

它与所有事都相关,除了训练。一个数据科学和机器学习平台(Data Science & Machine Learning Platform)关注的是过了训练阶段后的模型的生命。这包括了:模型注册、展示它们如何从一个版本升级到两一个版本的传承、将它们中心化让其他用户能找到、并让它们转化为独立的人造产物,能嵌入到任何数据流程中。

  

wzatv:企业应该怎样选择数据科学机器学习平台?

库 vs. 注册表

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容