先来看一幅图。
这优秀的地图由法国工程师Charles Minard所绘,有效地描述了1812年拿破仑军队在俄罗斯的进攻和灾难性撤退。 地图上显示了几个关键变量:拿破仑军队的规模(宽条1毫米表示1万人),地图上的位置,温度,进军方向和时间。 数据科学不仅仅是构建预测模型——当然这也解释了模型,能用于帮助人们理解数据和做出决定——数据可视化是以令人信服的方式来呈现数据的有效组成部分。 关于数据可视化和人们如何能够最好地感知信息有大量的研究,可参见Stephen Few等人的研究。 如下是改善人类感知的建议(敲黑板): 关于位置的数据要基于一个共同的比例尺; 在显示大小上,条形比圆形或方形更有效; 在散点图上,颜色比形状更明显; 除非为了显示比例,否则避免使用饼状图; 避免3 d图表,减少图表垃圾; 阳光式的可视化比分层的散点图更有效; 用小倍数(尽管动画看起来很酷,但对于理解变化的数据是比较低效的)。 从数据科学的观点来看,可视化的重要之处在于强调数据的关键方面:什么是最重要的变量,它们的相对重要性是什么,有哪些变化和趋势。 数据可视化必须在视觉上吸引人,但又不以加载图表、不以呈现不需要的垃圾为代价,直播,如下是反例。
Edward Tufte教授提出了卓越图形原则: 给读者—— 最多想法 在最短的时间内 在最小的空间内用最少的笔墨 一个常见的错误就是改变纵轴以增加效应,如下图。
我们提到了如何避免坏的可视化。那么我们如何做一个好的数据可视化? 要做到这一点,首先为你的数据选择一个正确的类型的图表。 线形图表示随着时间的推移的变化或趋势,或是显示两个或两个以上变量之间的关系。 条形图用于比较许多不同类别。 散点图用来显示联合两个数据项的联变。 饼图用来比较属于同一个整体中的不同部分。但尽量少用,因为人很难分辨饼图中两块的面积大小。 你可在二维图上通过颜色、形状和大小来增加变量。 使用交互式仪表盘,使人能够尝试不同的关键变量。 对于多维的数据,有很多高级的可视化方法,比如平行坐标,切尔诺夫脸谱图,简笔画等,但它们并没有得到广泛应用,因为它们对于非专业人员来说难以理解。 然而,你还是可以超越二维,通过使用颜色、标签和大小,有效地呈现其他维度的信息。 以下是1976年以来美国总统选举的一个例子。
不好的原因有几个: 首先,普选的百分比不是最重要的变量,因为美国选举结果是由选举人票决定的,不是普选。饼图应同时显示普选和选举人票的结果。 第二,比例尺是从40%开始的,放大了差异。 第三,在一些选举(1980、1992、1996、2000)有第三方候选人获得了大量的选票。一种更好的方式应该是呈现赢家和第二名的候选人在选举人票和普选票之间的差异。 最后,使用颜色不同的条形来呈现显得非常分散,不能传达任何有用的信息。应该利用颜色来显示不同的党派,例如现在通用的是民主党蓝色,直播,共和党红色。 下面是一个改进后的可视化作品,显示了选举的赢家和第二名的差异,横坐标是普选差异,纵坐标是选举人票的差异。圆形面积表示投票人数(单位:百万)。颜色表示党派。
有时你可能需要非标准的可视化,这需要一些手动的编辑。 良好的数据可视化在社交媒体上有很重要的意义。 (责任编辑:本港台直播) |