本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车(4)

时间:2017-07-05 16:18来源:118图库 作者:开奖直播现场 点击:
上面的每一个Bicluster类别都可以看做是一个话题,这里可以量化的看到每个话题在总文本中的成分占比(通过文档数量或关键词数量来判定),也可以了解

上面的每一个Bicluster类别都可以看做是一个话题,这里可以量化的看到每个话题在总文本中的成分占比(通过文档数量或关键词数量来判定),也可以了解该话题在这4个月上的成分分布情况。从上图中可以看到,3-6月这四个月间的若干文本在Biclusters下分为4个话题。可以看到,基于Biclusters聚类的话题区分度明显要好于上述的LDA主题模型,而且很神奇的是,类别相近的词汇会自动聚集在一个话题下,横跨这8W+个文档!

上面四个话题可以很容易的得出:

Biclusters类别0

Biclusters类别1:共享单车相关的行政监管、整治,政府的视角

Biclusters类别2:共享单车运营中出现的各种社会问题,社会的视角

Biclusters类别3:共享单车方面的负面信息,很多已经上升到违法违规,甚至触犯刑法的层面了,法律的视角

由上面的数据,还可以得到这4个话题在总文本中的占比情况。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

从上图可以看出,Biclusters类别1的比重最大,也就是4个月间关于共享单车行政监管方面的文章较多,共享单车在市场运营过程中的各类问题已然引起社会和有关部门的高度重视,各种行业乱象亟待整治和肃清。

将话题和月份进行交叉分析,可以看到每个月份下关于共享单车报道的话题构成情况。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

比如,4月份有关共享单车的各种社会问题的媒体报道较多,而6月份对共享单车行业方面的报道居多。剩下的请小伙伴们看表说话,自行脑补,我就不废话咯。

6 情感分析

笔者在新浪微舆情“信息监测”上观察到,3~6月间关于共享单车的负面信息的走势情况,显然,这段时间内的负面信息一直处于一个较高的水平,平均每天好几W的负面新闻报道量。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

紧接着,笔者使用机器学习的方法,对这8W多条文章的标题进行本地的情感分析,以便获得媒体对共享单车报道的“情感倾向”的总体情况。

这里的“情感倾向”是以一个介于0~1之间的“情感极性值”来表征—如果某条评论的情感极性值越接近于0,说明它的负面情感倾向越明显,越接近于1,说明它的正面情感倾向越明显,而取值在0.5左右徘徊,这说明这种情感倾向不明显,是为“中性”。笔者将情感倾向值的取值区间0~1细分为3个子区间,分别对应不同的情感倾向。详细操作请参考《用数据全方位解读<欢乐颂2>》的2.1部分。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

经整理,将其制作成直方图的形式呈现:

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

从上面的直方图可以看出,情感极性值绝大部分在0.2上的分布最多,而这个分值处在负面情感度的左端,很低的水平。根据上图显示,如果要给这段时间内共享单车的总体情感倾向评级(5个级别,“极其负面”、“比较负面”、“中性”、“比较正面”、“极其正面”)的话,那么这个评级接近于“极其负面”。

以下是关于共享单车“三元”情感倾向的占比情况。

wzatv:【干货】用大数据文本挖掘,来洞察“共享单车

由此,再次印证了这段时间内关于共享单车的各类负面报道不断。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容