大数据文摘作品,转载具体要求见文末 编译团队 | 寒小阳 黄念 黄卓君 作者|Megan Risdal 目前,Kaggle用户在我们的开放数据科学平台上创建了近3万颗内核。这代表了惊人且不断增长的可再现知识。我发现我们的代码和数据库是目前了解Python和R最新技术和库的好地方。 在这篇博客中,我将一些优秀的用户内核变成迷你教程,作为在Kaggle上发布的数据集进行绘制地图的开始。这篇文章中,你将学习如何用Python和R,使用包括实际代码示例的几种方法来布局和可视化地理空间数据。我还列出了资源,以便你可以了解每个教程中突出显示的每个包以及进一步的用户分析,从而获得更多的灵感。 前言 为了探索目的而创建一个简单的地图不再需要你学习如何操作shapefile或想象投影。并且,无论你喜欢在R或Python,都有快速和简单的方法把你的数据展现在地图上。 注:Shapefile文件是描述空间数据的几何和属性特征的非拓扑实体矢量数据结构的一种格式 R 地图 对于R用户,Kaggler Umesh显示,你需要的是ggplot2和Hadley Wickham的地图包,借助CDC在Kaggle上发布的数据,以显示美国哪些州每日吸烟者的百分比最高。 数据包下载链接: 然后,创建地图本身就像创建任何其他ggplot可视化一样熟悉。 最终的成果清楚地描述了美国哪些州每天吸烟人数最多。 美国的吸烟者和非吸烟者在地图上的分布。 这里,还有一些更好的资源用于使用地图、mapsdata和ggplot2: 在R中绘制地图
使用ggplot2软件包在R中绘制地图
请注意,你目前无法在内核中使用ggmaps。在大多数情况下,你不能做诸如从我们的环境中调用API的事情。 Python 地图 对于Python用户来说, matplotlib底图工具包是绘制2D地图一个好的起始。你可以在底图文档中阅读更多内容,这里有各种示例。 数据包下载链接: 有很多用户编写的大内核,但Kaggler Dotman则显示了使用底图来很轻松地将纽约市近100万Uber行程的数据可视化: 在纽约可视化Uber出行数据。 有关演示如何使用Python中的底图来生成有效的地图可视化的更多示例,请查看以下这些用户内核: 美国宽带手机接入的地图可视化(Jesse Lieman-Sifry制作)。 https://www.kaggle.com/jliemansifry/d/census/2013-american-community-survey/making-a-map-easy-example-using-basemap/code 使用2014年美国社区调查数据处理shapefile(Phil Butcher分派的代码)。 https://www.kaggle.com/mrisdal/d/census/2014-american-community-survey/using-shapefiles-fork-of-2013-code/code 南非犯罪的Choropleth地图(Kostya Bahshetsyan制作)。 https://www.kaggle.com/kostyabahshetsyan/d/slwessels/crime-statistics-for-south-africa/choropleth-map-of-crime-south-afrika 互动地图使用交互式地图(和一般的交互式数据可视化),j2直播,你可以将颜色限制为只有你认为与你的受众更广泛相关的颜色,而且还可以让用户在需要更多信息的地方深入查看。在这里,我强调了使用Plotly,Leaflet和Highcharter创建的用户创建的地图。 Plotly 在FiveThirtyEight提供的数据集中,用户可以检查追溯到1971年的美国警察死亡原因。鉴于位置信息,Kaggler Abigail Larion比较了使用Python和Plotly状态的警察死亡地图。她的代码演示了如何简单地用计数(国家人口归一化)创建一个干净和互动的地图: 美国警察的死亡情况 (责任编辑:本港台直播) |