大数据文摘作品 转载请注明来源「大数据文摘」 作者 | Karlijn Willems 编译团队 | 饶蓁蓁,Mirra,apple黄卓君 文本挖掘应用领域无比广泛,可以与电影台本、歌词、聊天记录等产生奇妙的化学反应,电影对白、歌词和聊天记录等文本中往往藏着各种有趣的故事。想要开始文本挖掘,但是使用的教程过于复杂 ?找不到一个合适的数据集?大数据文摘的这篇文章将会引导你学习8个技巧和诀窍,希望能够激励你开始文本挖掘的进程并且保持兴趣。 1、对文章产生好奇 在数据科学中,几乎做所有事情的第一步都是产生好奇,文本挖掘也不例外。 文本挖掘应用领域无比广泛,可以与电影台本、歌词、聊天记录等产生奇妙的化学反应:如南方公园的对话,电影对白的文本挖掘和分析等也都是受到了文本挖掘的启发;近期大数据文摘相关文章《》带各位分析了聊天记录中隐藏的文本信息;而对各类歌词的文本信息分析,也颇有意思。 当然,你也可以像StackOverflow的数据科学家David Robinson一样对社交网络上的文本产生兴趣。他在几个星期前他的博客中对于川普的推特数据产生了好奇:“我看到一个假设……仅仅需要对数据进行调查”。 每一个不夸张的推文是从苹果手机(他的工作人员)发送的。每一个不夸张的推文是从Android手机(从他本人)手机发送的。pic.twitter.com/gwr6d8h5ed ——Todd Vaziri(@ tvaziri 2016年8月6日) 也许,如果你对验证假设不是那么感兴趣,那你可能觉得文字图云非常炫酷,并且自己也想尝试创造这种文字图云。 2、获得你需要的知识和技能 当你产生了好奇,就到了时间来设计你的游戏,并开始展开对文本挖掘知识和技能的学习。你可以轻松地通过完成一些教程和课程来做到这一点。 在这些课程中你应该注意的是:他们给你介绍的数据科学工作流程中至少需要有以下一些步骤,如数据准备或预处理、数据探索、数据分析等。 数据大本营为那些正在准备开始文本挖掘的人准备了一些材料:近日,泰德Kwartler写了一篇关于谷歌趋势和雅虎股票服务的文本挖掘数据教程。这种易于遵循的R教程,可以让你一边实际操作一边学习文本挖掘,这对于文本挖掘的的初学者来说是一个很好的开始。 此外,Ted Kwartler也是数据大本营R课程 “文本挖掘:词袋”的讲师,这门课会向你介绍各种分析方法和数据可视化的内容,让你通过文本挖掘技术对实际生活案例进行操作和研究。 另一方面,你也会有一些不仅限于R的其他材料。如果想学习Python,你可以看看以下这些教程和/或课程:用Python进行文本分析,或者你也可以浏览这个介绍Kaggle的教程。 你是否对其他的教程资源更感兴趣呢?可以去数据大本营中的了解数据科学 - Python&R的教程! —— 阅读更多:#gs.W_xHH_I 3,词,词,词 - 寻找你的数据 一旦你勾勒出了你需要分析和可视化数据数据的基本概念,就是时候去寻找数据了! 请相信我们当我们告诉你,有很多方法可以让你得到你想要的数据。除了提到过的谷歌趋势和雅虎,你也可以从以下方式访问数据: 推特! R和Python的提供包或库,将允许你连接到Twitter的API和检索推文。你将在下一节了解更多关于这部分的内容。 互联网档案馆,是一个非营利性的图书馆。囊括了数以百万计的免费图书、电影、软件、音乐、网站等。 Gutenberg计划提供超过55,000本免费电子书。这些电子书大多数都跟文学有关,因此如果你想要分析莎士比亚,简·奥斯汀,爱伦坡的作品,这将是一个很好的来源。 对于学术方法类的文本挖掘,你可以使用JSTOR的数据研究。这是一个免费的自助服务工具,让计算机科学家、数字人文主义者和其他研究人员选择和JSTOR的内容进行互动。 (责任编辑:本港台直播) |