报码:2017年数据科学15个最好用的Python库(3)_本港台直播_J2开奖直播

这个库的名字是Natural Language Toolkit（自然语言工具）的缩写。正如其名，它被用于由象征性与统计性自然语言处理的一般任务。NLTK旨在用于自然语言处理的教学与研究等的相关领域（语义学，认知人工智能科学，等等）并现在它的使用受到了很大的关注。

NLTK在功能上允许很多操作，例如文字标签，归类，标记解释，名称识别；通过建立语料树（corpus tree）来解释句子的内外联系，词根提取以及语义推理。所有这些内置模块都允许为不同的任务建造复杂研究系统。

13.Gensim （提交：2878次，贡献者：179个）

这是一个开源的Python库，为人们提供向量空间建模和主题建模的工具。这个库的设计旨在高效处理大规模文本：除了允许内存中处理，效率的主要来源在于广泛使用NumPy的数据结构和SciPy的运算符号，这两个使用起来都十分的高效和简单。

Gensim主要被用于未加工的非结构化的数字文本。Gensim使用了诸如：分层狄式流程（hierarchical Dirichlet processes），潜在语义分析（latent semantic analysis），潜在狄氏分布（latent Dirichlet allocation）以及文档频次（tf-idf，term frequency-inverse document frequency），随机映射，文字/文档向量化（word2vec，document2vec）检测多个文档文字中词语出现的频次，通常被成为语料库（corpus），之类的算法。这些算法都是非监督性的——不需要任何的参数，唯一的输入就是语料库。

谷歌Trends历史记录

报码:2017年数据科学15个最好用的Python库

图片来源：trends.google.com

Github下载请求历史纪录

报码:2017年数据科学15个最好用的Python库

图片来源：datascience.com/trends

数据挖掘与统计

14. Scrapy（提交：6325次，贡献者：243个）

Scrapy是一个制做爬虫程序的库，也被称作“蜘蛛机器人”（spider bots）。旨在提取结构化数据，例如从网页联络信息，或网址链接。

它是开源并由Python写的库。正如其名，它最开始只是为了扒网页所设计，然而现在他已经进化成为一个拥有从API上获取数据并且，用途广泛的爬虫程序。

这个库一直贯彻其“不要在界面设计上重复你自己”的宗旨——鼓励用户写出广泛适用并可重复使用的代码，从而制造强大的爬虫软件。

整个Scrapy的结构都是围绕蜘蛛类建造的，该类封装了爬虫跟踪的一组指令。

15. Statsmodels (提交: 8960, 贡献: 119)

你可能已经从它的名字猜到了，statsmodels是一个让用户通过多种估计方式和统计模型，进行数据探索和统计分析的Python库。

实用的特征有：统计描述，线性回归模型，广义线性模型，离散选择模型，稳健线性模型，时间序列分析以及多种回归子。

这个库同样提供大量为统计分析专门设计的画图方程，并且为更好的展示大数据进行了专门的调整。

结论

以上这些就是由数据科学家和工程师们公认的值得你一探究竟的Python库。

这是每个库在Github上动向的详细数据：

报码:2017年数据科学15个最好用的Python库

当然这不是最终极全面的总结。也有其他的库和框架，同样值得为了特殊的任务进行适当的关注。一个很好的例子是另一个程序包SciKit，它重点针对一些特别的领域。像SciKit-Image就针对于图像处理。

所以如果你还想到其他有用的库的话，请在评论区与读者一起分享吧。

(责任编辑：本港台直播)