脏数据处理,对于一些会影响整个分析统计的脏数据,需要在接入层的时候进行逻辑屏蔽,避免后面统计分析和应用的时候,由于这部分数据导致很多不可预知的问题。 2. 数据的存储与计算完成数据上报和采集和接入之后,数据就进入存储的环节,继续以腾讯为例。 在腾讯内部,有个分布式的数据仓库用来存储数据,内部代号叫做TDW,它支持百PB级数据的离线存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造。 从对外公布的资料来看,TDW基于开源软件hadoop和hive进行了大量优化和改造,已成为腾讯最大的离线数据处理平台,集群各类机器总数5000台,总存储突破20PB,日均计算量超过500TB,覆盖腾讯公司90%以上的业务产品,包含广点通推荐,用户画像,数据挖掘和各类业务报表等,都是通过这个平台来提供基础能力。 图8,腾讯TDW分布式数据仓库 图9 TDW业务示意图 从实际应用来看,数据存储这部分主要考虑几个问题: 数据安全性,很多数据是不可恢复的,所以数据存储的安全可靠永远是最重要的。一定要投入最多的精力来关注。 数据计算和提取的效率,做为存储源,后面会面临很多数据查询和提取分析的工作,这部分的效率需要确保。 数据一致性,存储的数据主备要保证一致性。 第9步:获取数据就是产品经理,数据分析人员从数据系统获得数据的过程,常见的方式是数据报表和数据提取。 报表的格式,一般会在数据需求阶段明确,尤其是有积累的公司,通常会有报表模板,照着填入指标就好了。强大一些的数据平台,则可以根据分析需要,自助的选择字段(表头)进行自助报表的配置和计算生成。 下面是做数据报表设计的几个原则: 1. 提供连续周期的查询功能 (1)报表要提供查询的起始时间,可以查看指定时间范围内的数据。忌讳只有一个时间点,无法看数据的趋势。 (2)对一段时间范围内的数据能够分段或汇总,能够对不同阶段进行比较。 2. 查询条件与维度相匹配 (1)有多少个维度,就提供多少个对应的查询条件。尽量满足每个维度都能分析。 (2)查询条件要提供开、合,以及具体值的过滤功能。既能看总体,又能看明细,还要能看单一。 (3)查询条件的顺序,尽量与维度的顺序对应,最好按从大到小的层次。 3. 图表与数据要一致 (1)图表显示的趋势,要与相应的数据一致,避免数据有异议; (2)有图就必须有数据,但是,有数据可以没有图; (3)图表内的指标不要太多,并且指标间的差距不要太大。 4. 报表要单一 (1)一张报表,只做一份分析功能,多个功能尽量拆到不同的表报中; (2)在报表中尽量不要有跳转; (3)报表只提供查询功能。 看几张常用报表,WEB产品的流量报表,来自百度,关注PV、UV、新访客比率、跳出率、平均访问时长等。 专门说一下跳出率,这个数据反应了用户进入网站的着陆页(不一定是首页)价值,是否可以吸引用户进行一次点击,如果用户达到着陆页,没有任何点击,则跳出率增大。 图10 百度统计的网页数据报表 再看友盟数据平台提供的产品留存率数据报表,通常关注的留存率有:1天后留存、7天后留存、30天后留存。 图11 友盟的留存数据报表 数据提取,在做产品运营中,是很常见的需求,例如提取某一批销量较好的商品及其相关字段,提取某一批指定条件的用户等。同样,功能比较完备的数据平台,会有数据自助提取系统,不能满足自助需求,则需要数据开发写脚本进行数据提取。 图12所示,腾讯内部的数据门户,承担了诸多产品的数据报表、数据提取、数据报告的功能。 图12 腾讯数据门户首页 第10步:观测和分析数据 这里主要是数据变化的监控和统计分析,通常我们会对数据进行自动化的日报表输出,并标识异动数据,数据的可视化输出很重要。 (责任编辑:本港台直播) |