欲知预售会员计划详情,请点击以上图片 7月13日~15日,全球最顶级大数据会议Strata Data Conference在北京召开。在会议上,我们看到了一个熟悉的身影——“Hadoop之父”、Cloudera 首席架构师Doug Cutting。 在本次会议召开之前,DT 君对这位 Hadoop 之父进行了独家专访。在采访中,Cutting 认为 ,Hadoop 的成功证明了开源已是我们身处数字转型时代的必要条件,但也认为 AI 的发展将为 Hadoop 社群带来整合开发资源的挑战,并提醒大众在数据应用与隐私之间找到平衡点。
图丨Hadoop 之父 Doug Cutting(图片来自DeepTech驻台湾编辑詹子娴) 随着数据量愈加庞大,想要有更高效率的处理方式,就需要有新的工具出现,Hadoop 就是其中的代表。Hadoop技术不仅开启了大数据时代,更成为孕育大数据技术的摇篮,至今发展也超过十个年头。 起初,Doug Cutting 希望以开源架构开发出一套搜索技术,类似于现在的 Google Search 或是微软的 Bing,刚好 2004 年 Google Labs 发布了关于自家大数据分析、MapReduce 算法的论文。Doug Cutting 利用 Google 公开的技术扩充他已经开发出来的 Lucene 搜索技术,进而打造出了 Hadoop。 Hadoop 是基于开放源代码所建构,用于分散式处理和分析电脑丛集上的巨量资料集,也可以想成是一个能够储存并管理大量资料的云端平台。它主要有两个核心技术,分别是分布式档案系统(Hadoop Distributed File System,HDFS)以及 MapReduce 技术。 当企业储存大量的资料时,透过 HDFS 技术把大量的资料切割成小份,储存并备份在多个节点。而当企业需要进行资料分析处理时,就在先各个节点上处理这些小份的资料,之后再把这些结点算出来的片段结果传回到中央进行归纳整合,这就是 MapReduce。
正因为透过多节点分工来处理巨量资料,解决了档案储存的问题,同时也大幅缩短了运作时间,让 Hadoop 成了大数据的主流技术,atv,知名大企业如Google、Facebook、沃尔玛、银联、联通、台积电等,都利用了 Hadoop 技术。 不仅如此,开奖,还成就了庞大的 Hadoop 生态圈,象是今年刚在纽交所上市的 Cloudera,就是基于 Hadoop 架构开发大数据工具最知名的公司,其他的还有 Hortonworks、New Relic 都是从新创公司走向上市,MapR 也有意申请IPO。
Doug Cutting 表示,Hadoop 的意义不在技术,更大的意义在于“数字转型”(digital transformation),从 Hadoop 的成功经历我们可以学到几件事:首先、开放源代码已经是必要的,例如在 20 年前他开发出 Hadoop 的前身— Lucene 开源代码搜寻技术时,并没有料想到 Lucene 会成功,“因为它并不是最好的技术,也不完美,但它因为是属于开放源代码,透过社群的力量,使它成为了最好的搜索技术。”对使用者来说,现在更多想要的是开放源代码的软件。
第二件事就是数字转型需要不同的运算跟储存架构。在完成 Lucene 之后几年,Cutting 就开始投入到 Hadoop 的研发之中,“你可以看到整体的应用已经兴起,它的成功在于满足了大家的需求。”在 Hadoop 之前,几乎所有的资料或应用程序都要被储存在分开的系统里,但有了 Hadoop 之后,它们可以被存在单一的系统里,在扩充性、处理运算方面有更好的成效。 在这十年间, Hadoop 被大量应用于真实的商业环境中,而且还有很多衍生的工具或专案都是围绕 Hadoop 为中心发展出来,例如可支援 SQL 语法的 Hive、专门用于 Hadoop 档案系统上的资料库系统 HBase 等,Hadoop 生态系统相当多元且十分强大,有 20~30 个开放源代码程序可以共同运用。 而人类也从未停止对科技的追求,大数据流行了之后,人工智能成为最新的关键字,要发展人工智能不可缺少的一项关键就是数据,Doug Cutting 指出,Hadoop 与机器学习、AI 有高度关联性,要训练、测试、评价人工智能都需要数据,许多开发者在 Hadoop 平台上写了很多应用程序,可以利用这个平台搜集各种巨量数据,支援 AI 和机器学习的数据也是爆炸性成长,很难有一家公司可以做到提供这么大量的工具。
图丨Data Science Workbench 界面 (责任编辑:本港台直播) |