随着大数据在企业中的应用日益成熟,并且数据的种类和数量依然在与日俱增,有关数据管控之类的话题也变的越来越重要。很多企业已经选择通过“数据湖”的方式创建一个中央仓库,用于保存自己的所有数据。但除非人们知道数据湖中到底有什么,并且能按需访问分析工作所需的恰当数据,否则数据湖将全无用处。然而帮助用户轻松找到自己需要的数据,同时妥善地管理数据访问权,这一点并不容易实现。 不仅需要考虑数据湖本身,管控的一个核心主题在于让用户轻松访问可信赖的数据,借此满足企业中任何人的需求,同时必须要以安全、可审计的方式做到这一切。或大或小的供应商(Informatica、Collibra、Alation)纷纷提供功了数据编录、参考数据管理、数据辞典,以及数据帮助台等产品。 分析 数据科学家是否已经成为濒危物种? 就在几年前,数据科学家还被视作“21世纪最性感的职业”。就算到现在,Glassdoor的“美国最佳工作”清单中,“数据科学家”依然名列榜首。 但是仅仅在诞生几年后,这个职业就已陷入困顿。部分原因在于其必要性,虽然学校和程序员课程依然在塑造大量粗制滥造的新手数据科学家,但这个岗位依然有很大空缺,尤其是财富1000强公司,他们都觉得很难招募到顶尖的技术人才。在某些组织中,数据科学部门已经从原本的促进者一举“堕落”为瓶颈。 与此同时,随着人工智能技术的民主化和自服务工具的飞速涌现,现在无论数据科学技能极为有限的数据工程师,甚至非技术型的数据分析师,都已经可以承担原本只能由数据科学家负责的基本任务。企业中与大数据有关的很多工作,尤其是枯燥乏味的简单工作,也许会越来越多地开始由数据工程师和数据分析师通过自动化工具来执行,而不再需要具备娴熟技能的数据科学家参与。 也就是说,数据科学最终可能会完全由机器来处理。一些初创公司已经明确将自己的产品定位为“自动化的数据科学”,其中最值得一提的是,DataRobot刚刚通过这种想法筹集到5400万美元投资(数据科学如何实现自身的自动化),Salesforce Einstein也声称自己可以提供能自动生成的模型。 毫无疑问,这些趋势尚未流行起来,目前在数据科学的社区里依然存在一些争议。然而数据科学家目前还不需要对此过于担心。在不远的将来,自服务工具和自动化模型选择将成为数据科学家的“左膀右臂”,而非彻底取代他们,他们可以将更多精力用于需要进行判断、创新、社交技能,或需要具备垂直行业知识的任务。 让一切协同工作:数据工作台的崛起 在大部分大型企业中,大数据技术的运用通常都是从少数相对独立的项目开始的(这里部署个Hadoop群集,那里部署个分析工具),并且会产生一些新的工作岗位(数据科学家、首席数据官)。 然而今天的情况截然不同:异构的情况愈加普遍,企业内部使用了五花八门的工具。从组织结构方面来看,在大型企业中,集中化的“数据科学部门”正在逐渐变成更加“分散化的组织”,通常会有数据科学家、数据工程师,以及数据分析师组成的跨职能群体,并且更加深入地融入到不同业务部门中。因此对于平台来说,需求已经变的更加明确,需要让所有人能够就各种技术进行协同工作,这一点在我们去年的文章中就有提及,大数据项目能否成功,主要取决于能否将不同技术、人员和流程完美融合在一起。 因此协作平台这一领域目前正在经历快速发展,并催生出一种被部分人称作DataOps(类似于DevOps)的概念。FirstMark也正是出于这个原因而投资了Dataiku(可参阅我的上一篇文章:Dataiku,亦或早熟的大数据)。这一领域其他比较重大的投资包括Knime(A轮,2千万美元)以及Domino Data Lab(A轮1千万美元)。Cloudera刚刚发布了一款基于所收购的Sense技术开发的工作台产品。这一领域的开源活动也很活跃,例如Jupyter和Anaconda。 应用程序 人工智能驱动的垂直应用程序 至少几年前,我们就开始讨论垂直领域人工智能应用程序的崛起(x.ai以及人工智能驱动的应用程序逐渐涌现),但原本的溪流何时演变成了现在的滔天巨浪?突然之间,似乎每个人都开始开发人工智能应用程序了,无论新成立的,或已经取得重大进展的初创公司,都开始压赌于人工智能,认为这是下一轮增长点(例如InsideSales)。 (责任编辑:本港台直播) |