本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

实战案例|构建产品数据运营体系的11个步骤(4)

时间:2017-07-05 00:08来源:本港台直播 作者:j2开奖直播 点击:
脏数据处理 ,对于一些会影响整个分析统计的脏数据,需要在接入层的时候进行逻辑屏蔽,避免后面统计分析和应用的时候,由于这部分数据导致很多不

脏数据处理,对于一些会影响整个分析统计的脏数据,需要在接入层的时候进行逻辑屏蔽,避免后面统计分析和应用的时候,由于这部分数据导致很多不可预知的问题。

2. 数据的存储与计算

完成数据上报和采集和接入之后,数据就进入存储的环节,继续以腾讯为例。

在腾讯内部,有个分布式的数据仓库用来存储数据,内部代号叫做TDW,它支持百PB级数据的离线存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造。

从对外公布的资料来看,TDW基于开源软件hadoop和hive进行了大量优化和改造,已成为腾讯最大的离线数据处理平台,集群各类机器总数5000台,总存储突破20PB,日均计算量超过500TB,覆盖腾讯公司90%以上的业务产品,包含广点通推荐,用户画像,数据挖掘和各类业务报表等,都是通过这个平台来提供基础能力。

实战案例|构建产品数据运营体系的11个步骤

图8,腾讯TDW分布式数据仓库

实战案例|构建产品数据运营体系的11个步骤

图9 TDW业务示意图

从实际应用来看,数据存储这部分主要考虑几个问题:

数据安全性,很多数据是不可恢复的,所以数据存储的安全可靠永远是最重要的。一定要投入最多的精力来关注。

数据计算和提取的效率,做为存储源,后面会面临很多数据查询和提取分析的工作,这部分的效率需要确保。

数据一致性,存储的数据主备要保证一致性。

第9步:获取数据

就是产品经理,数据分析人员从数据系统获得数据的过程,常见的方式是数据报表和数据提取。

报表的格式,一般会在数据需求阶段明确,尤其是有积累的公司,通常会有报表模板,照着填入指标就好了。强大一些的数据平台,则可以根据分析需要,自助的选择字段(表头)进行自助报表的配置和计算生成。

下面是做数据报表设计的几个原则:

1. 提供连续周期的查询功能

(1)报表要提供查询的起始时间,可以查看指定时间范围内的数据。忌讳只有一个时间点,无法看数据的趋势。

(2)对一段时间范围内的数据能够分段或汇总,能够对不同阶段进行比较。

2. 查询条件与维度相匹配

(1)有多少个维度,就提供多少个对应的查询条件。尽量满足每个维度都能分析。

(2)查询条件要提供开、合,以及具体值的过滤功能。既能看总体,又能看明细,还要能看单一。

(3)查询条件的顺序,尽量与维度的顺序对应,最好按从大到小的层次。

3. 图表与数据要一致

(1)图表显示的趋势,要与相应的数据一致,避免数据有异议;

(2)有图就必须有数据,但是,有数据可以没有图;

(3)图表内的指标不要太多,并且指标间的差距不要太大。

4. 报表要单一

(1)一张报表,只做一份分析功能,多个功能尽量拆到不同的表报中;

(2)在报表中尽量不要有跳转;

(3)报表只提供查询功能。

看几张常用报表,WEB产品的流量报表,来自百度,关注PV、UV、新访客比率、跳出率、平均访问时长等。

专门说一下跳出率,这个数据反应了用户进入网站的着陆页(不一定是首页)价值,是否可以吸引用户进行一次点击,如果用户达到着陆页,没有任何点击,则跳出率增大。

实战案例|构建产品数据运营体系的11个步骤

图10 百度统计的网页数据报表

再看友盟数据平台提供的产品留存率数据报表,通常关注的留存率有:1天后留存、7天后留存、30天后留存。

实战案例|构建产品数据运营体系的11个步骤

图11 友盟的留存数据报表

数据提取,在做产品运营中,是很常见的需求,例如提取某一批销量较好的商品及其相关字段,提取某一批指定条件的用户等。同样,功能比较完备的数据平台,会有数据自助提取系统,不能满足自助需求,则需要数据开发写脚本进行数据提取。

图12所示,腾讯内部的数据门户,承担了诸多产品的数据报表、数据提取、数据报告的功能。

实战案例|构建产品数据运营体系的11个步骤

图12 腾讯数据门户首页

第10步:观测和分析数据

这里主要是数据变化的监控和统计分析,通常我们会对数据进行自动化的日报表输出,并标识异动数据,数据的可视化输出很重要。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容