方差和标准差的意义是相同的,但是标准差与原始数据的单位量纲相同,它更容易与平均数等度量比较。比如商品A的平均销量为11个,标准差为0.85个,于是我们知道这个商品卖的比较稳。 切比雪夫定理指出,至少有75%的数据值与平均数的距离在2个标准差以内,至少有89%的数据与平均数在3个标准差之内,至少有94%的数据与平均数在4个标准差以内。这是一个非常方便的定理,能快速掌握数据包含的范围。 假设上海地区的平均薪资是20k,标准差是5K,那么大约有90%的薪资,都在5k~35k的区间内。 如果数据本身符合正态(钟形)分布,那么切比雪夫定理的估算将进一步准确:68%的数据落在距离平均数一个标准差内,95%的数据值落在距离平均数2个标准差之内,几乎所有的数据落在三个标准差内。 在Excel中,有一个重要的工具叫数据分析库(部分Excel版本需要安装,自行搜索),里面封装了大量的统计工具。 点击描述统计,选择需要计算的区域,设置为逐列,输出区域选择旁边U2区块。输出计算结果。 列1的所有内容,均属于描述统计中的各类度量。我们不用一个个函数去计算了。 方差和标准差是重要的概念,在后续的统计学中将继续出现。 数据的箱线图 回到度量,上文提到的内容,开奖,都属于数值类的方法,可它们还是不够直观。 先汇总五类数据:最小值、第一四分位数Q1、中位数、第三四分位数Q3、最大值。 拿数据分析师的薪资数据作案例。 以上是清洗后的数据。我们用Excel函数计算这五个度量。分别是median( )、max( )、min( )、quartile( )。按城市区分。 通过数据,现在可以了解各城市的数据分析师薪资分布了,接下来把它们加工成箱线图,它是最常用的描述统计图表。 箱线图通过我们求出的五个数据确定位置。 箱线图的上下边缘分别是最大值和最小值(实际不是,这里为了方便,先这样理解),箱体的上下边界则是25%分位数和75分位数。箱内横线是中位数。异常值是箱线边缘外的数值,需要直接排除。 Excel2016可以直接绘制箱线图,如果是早期版本,有两种作图思路。 第一种,是利用股价图。将图表按25%分位数、最大值、最小值、75%分位数的顺序排列。 然后直接生成图表: 这个图表是没有中位数的,中位数需要添加上去。数据源新建一个系列,该系列应该调整到位于数据源的中间位置。 选择中位数的数据系列格式,更改标记为「-」,大小为12榜,颜色为黑色。此时就有箱线图的雏形了。 另外一种思路是利用散点图的误差线绘制,和甘特图的原理一样,大家自己练习吧。 其实从图表中看到,虽然我们描绘出了箱线图,但是不同城市的数据区别并不直观,因为最大值撑高了箱线图的边缘。我们经常会遇到这些影响分析质量的异常值(过于异常的数值虽然存在合理性,但是很多分析必须移除掉它们)。我们需要清洗掉这批异常值。 定义四分位差IQR=Q3(75%分位数)—Q1(25%分位数),箱线图的界限在(Q1-1.5IQR,Q3+1.5个IQR)处。界限外部所有值均为异常值。 bottom和top就是新的界限,对于在界限外部的数据,均认为是异常值。界限内部的数据则是箱线图的主体,接下来找出界限内的最大值和最小值。比如上海的界限是-5~39之间,而界限内的数据实际范围为1.5~37.5,那么就以1.5~37.5绘制箱形。 (责任编辑:本港台直播) |