【IT168 专稿】本文根据【2016 第七届中国数据库技术大会】现场演讲嘉宾张粤磊老师分享内容整理而成。录音整理及文字编辑IT168@田晓旭@老鱼。
嘉宾介绍:
飞谷云创始人 张粤磊
张粤磊,飞谷云()创始人,前平安付大数据平台架构师。历经了DBA,到开发工程师,再到大数据平台架构师的转变,有着10余年各行业(制造,咨询服务,互联网金融)一线数据处理及技术实践经验。
正文:
本港台直播最早是做数仓和ETL架构系统,后来开始做大数据架构,现在在自主创业,做了一个技术分享的网站。这个网站主要是结合本港台直播自己目前在做的大数据、数据处理、数据分析的项目,以及圈里朋友的经验技巧来给大家做一些技术分享。
本港台直播从2005年开始接触DBA工作,2010年在HP 的TRAM项目中担任ETL开发组长,2012年,在外汇交易中心ETL项目担任开发经理,2014年,在平安付做大数据架构师。在这些年的工作过程中,接触了很多数据库,也有一些数据处理的经验想和大家来分享。
本港台直播今天演讲的主要分三个部分,第一部分是分享一下本港台直播在传统数据仓库的一些数据处理技术和配置方面的思考;接下来讲一下大数据环境下,公共数据和行为数据的数据处理技术;最后会讲一下从传统数据仓库迁移到大数据数据仓库的数据处理实践思考及建议。
传统数据仓库的数据处理技术及思考
本港台直播从自己实际参与的大型数据仓库项目出发,和大家分享一下传统数据仓库的数据处理技术。这个案例融合了本港台直播在外资企业、央企、民企、金融行业等等各个行业的项目实践经验,它是涵盖了整个传统数据仓库的标准流程。坦白讲,现在很多企业没有很标准的数据模型。数据模型是国外最早开始做的,比较经典的是惠普和eBay,开奖直播们的数据处理和数据模型的领导力比较强,也比较规范和科学,这两个团队在整体数据模型方面有一套成熟的方法论。数据处理方法同样适用整体的数据平台。
做一个数据管理仓库首先要做概念定义,这个一般是针对大型项目,分为企业内部和客户群体两部分,接下来是Portal和对应的权限管理,中间部分是根据实际业务去定义功能,有些功能是比较经典的,还有一些是根据特定业务场景去设计的。再下面一层是本港台直播们整体的数据集成层,再底层就是元数据层。
概念定义的产出一般是SOW,用来表明数据治理要做的功能单位。在这之下是业务定义,细化业务、系统功能,包括客户部分对应的联系人以及对应的清单,包括报表需要用哪些数据的实现。如果按实际应用来分的话,假设这是一个IT服务系统,下面会分服务管理和性能管理,性能管理又分硬件和软件的管理。
业务定义之后会有一个业务清单,业务清单里会有详细的业务要求以及相对应的工作项,这样可以保证数据不会出现遗漏,保证业务落实到位。
业务定义之后是逻辑定义,逻辑定义划分的就更细了,涉及具体业务怎么实现、由什么来实现。本港台直播们通常的做法是选择一些工具来实现报表的权限管理、元数据管理。ETL本港台直播们选择了informatics,数据文件的传输,尤其是跨域网站的数据传输,本港台直播们也是选用组件来完成的。再底层的话是业务系统,这个业务系统比较详细,一般都会定义到具体的业务名,清单里面也会有系统、接口这些信息。接下来还要进一步细化,比如业务DB的名称后,要去查看它的网段、所在服务器、端口、防火墙等等信息并需要做连通性验证等。这样就实现了从业务层到物理层面的落地。
(责任编辑:本港台直播) |