本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车(3)

时间:2017-07-05 16:18来源:118图库 作者:开奖直播现场 点击:
如果小伙伴们觉得上面笔者用关键词划分主题的做法有点扯淡,表示不服,那么笔者将拿出LDA主题模型来“回击”你,操作之前,先来简单科普下LDA主题模

如果小伙伴们觉得上面笔者用关键词划分主题的做法有点扯淡,表示不服,那么笔者将拿出LDA主题模型来“回击”你,操作之前,先来简单科普下LDA主题模型到底啥玩意。

由于LDA属于概率主题模型的子类,那就先从“概率主题模型”说起:

概率主题模型(Statistical Topic Models)是一类从文本文档中提取潜在语义信息的有效方法,近年来在文本挖掘领域得到了非常广泛的应用,在文本分类、信息检索等相关领域取得了非常好的应用效果。概率主题模型的基本原理认为文档是若干主题的混合概率分布,而每个主题又是一个关于单词的混合概率分布,可以看作是文档的一种生成模型。在概率主题的各项方法当中,潜在狄利克雷分配模型(LDA model)是最为有效的模型之一。

LDA是一种典型的无监督(也就是说,我们事先不知道每段文本里面说的是啥,直播,每个文本没有啥标签)、基于统计学习的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展,通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。

类似Kmeans聚类,LDA模型的主题数也需要人工来确定,笔者在尝试了多个主题数之后,确定了最终的主题数,从下面的LDA可视化图形可以看出,主题数为6时,很多主题所涵盖的关键词出现严重的重叠,而分成10个主题后,情况得到好转,话题区分度尚能接受。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

下图“打印”出这10个主题及其下辖的20个关键词,以“权重值*词汇”的累加形式呈现,各个权重值其实是该词汇在指定主题下出现的概率大小,也可以理解为该词对该主题的“贡献”程度,比如TOP0中的“孩子”前的权重系数为0.008,表明在TOP0的话题下,“孩子”被“抽中”的概率为0.008。依次类推,各个词语w在主题T下出现的概率分布称之为词分布,这个词分布也是一个多项分布

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

对于上图中的主题词列表(表示与各个潜在主题最为相关的一些词语),笔者还进行了可以点击交互的可视化展示,可以看到每个主题下的关键词在该话题下及总的文本中的占比情况,从中可以看出某个词对于该主题的重要程度如何。如下图中TOP1下的关键词“摩拜”,在该主题中出现的概率最大,重要性最高,红色条柱代表它在TOP1下的比重,而蓝色条柱的是它在整个文本(88,291篇文章)中的比重。某个词对该主题重要性最显著的情况是:蓝色条柱更短、红色条柱越长,这类词更能对主题进行区隔。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

将上述TOP及其下辖的主题词进行整理,排除主题中的“噪音”(明显跟主题不相关的词汇异常点),根据其中的词汇构成(不仅仅是下列展示的20个关键词,还包含后续的若干主题关键词)及相关媒体报道,得出这10个主题的大致“内涵”:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

主题对应的具体内容如下表所示:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

5 文档聚类

接下来采用的是基于谱联合聚类算法(Spectral Co-clustering algorithm)的文档聚类,这部分的原理涉及到艰深的数学和算法知识,可能会引起小伙伴们的阅读不适感,如果是这样,请快速跳过,直接看后面的操作和结果。

先将待分析的文本经TF-IDF向量化构成了词频矩阵,然后使用Dhillon的谱联合聚类算法(Spectral Co-clustering algorithm)进行双重聚类(Biclusters)。所得到的“文档-词汇”双聚类(Biclusters)会把某些文档子集中的常用词汇聚集在一起,由若干个关键词构成某个主题。

在正式分析前,现将先前Excel中的正文分词文本按月份进行分类,将其单独放进所属的月份文件夹下,操作如下图所示。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

最终的结果是,系统自动形成的几个文档簇群,以及每个簇群下面最重要的TOP30关键词。结果如下图所示:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

翻译一下,说人话就是:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容