这个库的名字是Natural Language Toolkit(自然语言工具)的缩写。正如其名,它被用于由象征性与统计性自然语言处理的一般任务。NLTK旨在用于自然语言处理的教学与研究等的相关领域(语义学,认知人工智能科学,等等)并现在它的使用受到了很大的关注。 NLTK在功能上允许很多操作,例如文字标签,归类,标记解释,名称识别;通过建立语料树(corpus tree)来解释句子的内外联系,词根提取以及语义推理。所有这些内置模块都允许为不同的任务建造复杂研究系统。 13.Gensim (提交:2878次,贡献者:179个) 这是一个开源的Python库,为人们提供向量空间建模和主题建模的工具。这个库的设计旨在高效处理大规模文本:除了允许内存中处理,效率的主要来源在于广泛使用NumPy的数据结构和SciPy的运算符号,这两个使用起来都十分的高效和简单。 Gensim主要被用于未加工的非结构化的数字文本。Gensim使用了诸如:分层狄式流程(hierarchical Dirichlet processes),潜在语义分析(latent semantic analysis),潜在狄氏分布(latent Dirichlet allocation)以及文档频次(tf-idf,term frequency-inverse document frequency),随机映射,文字/文档向量化(word2vec,document2vec)检测多个文档文字中词语出现的频次,通常被成为语料库(corpus),之类的算法。这些算法都是非监督性的——不需要任何的参数,唯一的输入就是语料库。 谷歌Trends历史记录 图片来源:trends.google.com Github下载请求历史纪录 图片来源:datascience.com/trends 数据挖掘与统计 14. Scrapy(提交:6325次,贡献者:243个) Scrapy是一个制做爬虫程序的库,也被称作“蜘蛛机器人”(spider bots)。旨在提取结构化数据,例如从网页联络信息,或网址链接。 它是开源并由Python写的库。正如其名,它最开始只是为了扒网页所设计,然而现在他已经进化成为一个拥有从API上获取数据并且,用途广泛的爬虫程序。 这个库一直贯彻其“不要在界面设计上重复你自己”的宗旨——鼓励用户写出广泛适用并可重复使用的代码,从而制造强大的爬虫软件。 整个Scrapy的结构都是围绕蜘蛛类建造的,该类封装了爬虫跟踪的一组指令。 15. Statsmodels (提交: 8960, 贡献: 119) 你可能已经从它的名字猜到了,statsmodels是一个让用户通过多种估计方式和统计模型,进行数据探索和统计分析的Python库。 实用的特征有:统计描述,线性回归模型,广义线性模型,离散选择模型,稳健线性模型,时间序列分析以及多种回归子。 这个库同样提供大量为统计分析专门设计的画图方程,并且为更好的展示大数据进行了专门的调整。 结论 以上这些就是由数据科学家和工程师们公认的值得你一探究竟的Python库。 这是每个库在Github上动向的详细数据: 当然这不是最终极全面的总结。也有其他的库和框架,同样值得为了特殊的任务进行适当的关注。一个很好的例子是另一个程序包SciKit,它重点针对一些特别的领域。像SciKit-Image就针对于图像处理。 所以如果你还想到其他有用的库的话,请在评论区与读者一起分享吧。 (责任编辑:本港台直播) |