如果是订单、用户行为、用户资料等大量数据,一般会以分组形式进行计算。不同分组字段,会生成不同的维度,像范例中的城市、工作年限,教育背景都是维度,也是图表的基础。如果生成的维度足够多,我们能利用维度组成数据模型,这是OLAP的概念。 除此以外,也能利用过滤直接筛选数据。我们选择出含有数据分析、分析的数据。排除掉大数据工程师等干扰职位。 这里支持多条件复杂逻辑筛选。 到这里,我们已经完成实战篇中的清洗过程中,我这次简单化了。以上步骤都能通过右侧的套用步骤还原和撤销。这里不会出现bottomSalery这类列。 之后选择工具栏的关闭并套用,报表数据就会更新。最后数据2300多行。 通过数据查询和报表DAX公式,我们就能完成数据清洗和规整的步骤。主要思路是:移除重复值、过滤目标数据、清洗脏数据、数据格式转换。 数据关联 我们工作中会用到很多数据,不可能依靠一张表走天下。若是在Excel中,我们经常用Vlookup函数将多张表关联汇总。Power BI则用拖拽关联数据,更方便。一般是先关联再清洗。 因为我的数据只有一张表,用不到关联,以官网截图为例。 很简单,用拖拽将Product的manufactureId和Manufacturer的manufactureId关联,我们可以理解成做了vlookup引用,也可以想成SQL的Join。 分析会涉及到很多复杂因素,这些因素相关的数据不会安安静静给你呆在一张表里,而是不同的表,所以需要用到数据关联。 数据关联在学习到SQL后会更加清晰,这是SQL的核心概念之一。 图表 进入图表设计阶段,点击侧边栏第一个项。BI比Excel好的地方在于,它只要拖拽就能设计和生成。 点击任一图表,画布上会自动生成图形,要切换图表类型直接点击其他即可。我们把城市和平均工资拖拽到视觉效果下的栏目,它会自动生成图表。不同图表需要的维度、轴都不一样,具体按提示进行。 视觉效果下有设计选项,可以将图表调整的更美观,这里不详细介绍了。 点击新增视觉效果(继续吐槽翻译),可以继续在画布上增加图表。绝大部分BI,都是支持联动的,所谓联动,通俗讲,就是点击图表上的维度元素,其他数据也会按此维度相应变化。 上图就是一个很好的联动例子,点击城市维度的北京,其他图表都变了,平均工资由14.23变成15.23。而学历则变成突出显示,显示出了北京的博士们薪水远高于平均水准。 图表联动带来更好的数据洞察,将不同数据维度的组合和选取,为分析师带来决策能力的提升。当然我最喜欢的特点之一是省时间。 通过不断的图表组合,就能生成数据分析师自己的分析画布。这块画布叫作Dashboard。当然图表好看与否,就取决于分析师的设计品味了(这个我教不了你们,哈哈)。 如果维度过多,大家可以插入视觉选项中的交叉筛选器,添加过滤功能,常用于精细化的分析,例如时间维度。图表右上角按钮,还能选择导出数据,导出一份该图表的csv数据。 我们也能将其发布到网上,作为同事和企业间协作,或者手机端浏览数据用。当然这里需要注册账号,就看大家意愿了。 更多功能留待大家学习,到这里,Power BI的新手教程就结束了。我列举了常用的功能,不知道大家有没有从Excel图表水平跃升到一个新阶段,大家可以自己拿数据做图表报告作为分析师行业的敲门砖。如果还有疑问,就借助官网文档学习,BI作为一个领域,它值得数据分析师深入。 以下是一些补充: 范例 因为时间的关系,我没有讲解更多的样式设计内容。大家可以去官网下载范例,含有原始数据练习。主要是学习他人的报表汇制思路。 另外Power BI的图表偏少,类似标靶图、箱线图都没有。不过官网有各类图表下载。搜索pbiviz即可,没有中文。 R集成 (责任编辑:本港台直播) |