本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车(2)

时间:2017-07-05 16:18来源:118图库 作者:开奖直播现场 点击:
上面圈红的字段是比较重要的分析维度,注意,导出的文章正文数据已经经过 系统分词 和 去停用词处理 ,直接省去了文本预处理所要耗费的时间。 笔者

上面圈红的字段是比较重要的分析维度,注意,导出的文章正文数据已经经过系统分词去停用词处理,直接省去了文本预处理所要耗费的时间。

笔者再对其中的数据进行去重处理—去掉“标题/微博内容”和“正文切词”相同的部分,再从“发布日期”中提取出“月份”字段(用于后面的按月份分类文本),最终得到如下结果:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

由此,原先的数据量从30W+的数据量减少到88,291条数据。

2 常规描述性数据统计

在正式的文本分析之前,笔者再对上述预处理后的数据进行描述性分析,先从表层获得这些数据的直观印象。

首先是这4个月有关共享单车的文章数量的分布情况,如下图所示:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

可以看到,中间两个月的发布文章数量最多,3月份的数量最少。

经统计,共有4056个媒体发布了跟共享单车有关的文章,在Excel中使用“数据分析-描述统计”对这些媒体发文数据进行描述统计,得出如下结果:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

由此可见,在文章总数88,291篇、发文媒体4,056个的情况下,平均每个媒体的发文数约为22篇(21.66),其中的中位数为3篇,众数为1篇,最大发文数为4,815篇。结合下面的直方图,数量分布呈现明显的左偏态,主要集中在“0-300篇”这个区间内(其中绝大部分为1篇)。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

再来展示发文数量TOP30媒体的情况。排名榜首的是突袭网,它是一个信息资讯“大杂烩”(上面有各类转载过来的信息和琳琅满目的广告,而且经常不标明信息来源。。。),其次是腾讯新闻、搜狐媒体平台、新浪和网易这样的综合信息门户网站。有点意外的是,汉丰网()的关于共享单车的发文量竟然排在第四位,它原名“开县新闻网”,原本是一个地方性质的媒体,于2010年成立,为把网站建设为报纸、电视、电台“三网合一”的网络媒体,汉丰网全面整合开县主流媒体资源,单从发文信息量这点来说,该网站发展着实迅猛。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

对于接下来的文本数据挖掘,笔者用到的是Python,以及常用的数据科学分析包,如jieba、sklearn、gensim、snownlp等。

3 关键词提取

在这部分,笔者除了对上述经分词处理的正文文本进行词频统计的同时,还用到了信息检索领域里的TF-IDF(Term Frequency–Inverse Document Frequency)关键词统计方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对分析文本具有重要意义的关键词。

根据上面的阐述,权重值大小与词频数不呈正比。对这88,291篇文章的关键词提取和词频统计如下。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

从上表可以看出,提取出的关键词跟共享单车的关联性很明显,大致上有如下几类:

共享单车的品牌及其创始人:“小黄车”(ofo)、“摩拜单车”、“永安行”、“小鸣(单车)”、“胡玮炜”、“戴威”等。

投融资、资本运作:“资本”、“投资”、“融资”、“战略”、“资金”、“金融”、“商业”、“投资人”、“合伙人”等。

政府对共享单车行业的监管:”政府”、”规范”、”监管”、”车管”、’城管“、‘机动车”、”车道”、“秩序”、”政策”等。

共享单车运营相关(包括其中出现的问题):”投放”、”运营”、”停车”、”支付”、”手机”、”拥堵”、”街头”、”开锁”、”地铁站”、”环境”等。

然后根据这些词的词频大小制作出共享单车形状的个性化词云,显示如下:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

关键词的提取只是获取这些文本讯息的“初印象”,好戏还在后头!

4 LDA主题模型

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容