在 2016 年的调查报告中,R 语言是最常用的编程语言(如果我们排除 SQL,这不是我在这里所指的编程语言)。57% 的受访者使用 R 语言(相比之下,使用 Python 的有 54%) (另外,有 70% 的受访者使用 SQL。如果你正在寻找 R 之后的另一个语言去学习,我会推荐 SQL) 他们还调查了人们去识别数据可视化的工具。他们发现 ggplot2 是最常见的可视化工具。我会在一篇即将发布的博客中解释为什么我喜欢 ggplot2,但如果我们只跟踪人气,O'reilly 的调查表明 ggplot2 时最常被使用的工具之一,甚至可能就是最常被使用的。 R 语言是学习数据科学的极佳语言 R 语言成为一门极佳的数据科学语言,在普遍性之外,另一大原因是:它是一门非常好的学习数据科学的语言。 R 语言是真正的「数据语言」 R 语言之所以如此适合数据科学的原因部分跟它本身的语言特性有关。自 R 语言发明之初,数据及统计的观念便融入其中。R-Project 形容其为「为统计计算而准备的编程语言及环境」。也就是说,R 语言的 DNA 中就含有统计及数据的基因。 如此说来,R 语言在众多编程语言中可谓独树一帜。它是一门为统计而生的语言,是一门为(处理)数据而设计的语言。当你在学习数据科学的时候,这将带来很大的优势——因为几乎所有的统计测试或方法都能够在 R 语言及其拓展库中找到。 最好的书籍和资源都使用了 R 语言 俨然,R 语言已是一门「统计计算」语言。与之相关的是,许多很好的书籍及学习资源都采用了 R 语言。 这非常重要。如果你是一名初学者,在数据科学领域才刚刚起步,那么你将需要学习很多知识。要真正掌握数据科学,你需要学习包括概率论、统计学、数据可视化、数据处理及机器学习在内的诸多子领域。所有这些领域都包含了理论基础(也就是你需要学习的内容),同时你也需要通过编写程序实际使用它们。 也就是说,你需要这样一种语言: 能够在这些领域都能够发挥作用(如数据可视化、数据处理、机器学习(也叫做统计学习))。 这门编程语言在这些领域内还有高质量的学习、训练素材。 尽管市面上有很多关于数据科学的书籍与课程,但其中最好的大多都是基于 R 语言的。 使用 R 语言学习概率论 以概率论为例,两本关于概率论的优秀书籍都是用 R 语言来编写书上的上手案例的。这两本书分别是: 《Probability with Applications and R》。这本书语言朴实、通俗易懂、条理清晰。 《Introduction to Probability》。这本书基于哈佛著名的统计学课程编写。 这只是两个简单的例子。如果你进一步发掘的话,你会发现几乎所有的关于概率论的书籍都使用了 R 语言。 使用 R 语言学习频率论统计学(frequentist statistics) 对于统计学方面的书籍也是如此。 因为统计学已经深入 R 语言的骨髓,所以许多统计学课本使用 R 语言作为其学习工具。 《Statistics: an Introduction using R》是一本介绍频率论统计学的优秀书籍。 一样的,如果你在亚马逊上快速搜索一下,你找到的大部分统计学入门的教材都使用了 R 语言作为它们的学习工具。 使用 R 语言学习贝叶斯统计学 当你正在寻找一本关于贝叶斯统计学的入门书籍时,这种趋势变得更为明显。 几乎所有的关于贝叶斯统计及推断的书籍都是用了 R 语言。尽管有些例外(有些书使用了 C 语言或者 Python),但主导的仍然是 R 语言。 如果你对贝叶斯统计学感兴趣,你可以查看这几本书: Introduction to Bayesian Statistics Statistical Rethinking Doing Bayesian Data Analysis 如果你对贝叶斯方法感兴趣的话,这些书是你最棒的选择了,并且它们都使用了 R 语言。 学习如何在 R 中进行数据可视化 当你在学习数据可视化的时候,尽管你会有相对更多的编程语言可以选择,但笔者还是认为,大多数最优的编程资源都使用了 R 语言。 (责任编辑:本港台直播) |