不过,话又说回来,这些都是来自媒体的声音,而媒体有喜好报道负面讯息的传统,缺少了广大网民发声,对共享单车的舆情分析难免会存在信息失真。对此,笔者选择了社会化媒体中具有重大影响力的新浪微博作为分析对象,对上面的网民情绪进行总览。关于社会化媒体方面的大数据分析,小伙伴们可以参看《如何利用Social Listening从社会化媒体中“提炼”有价值的信息?》 下面几张图来自新浪微舆情的“情绪地图”部分,数据来源为新浪微博,为保持时效性,时间区间为近三日。 整体上看,与媒体的报道不同,绝大部分网民对于共享单车的“泛滥成灾”是持“喜悦”情绪的,由上面的LDA主题模型可以了解到,“便利出行”是形成这种赞许态度的原因之一。 7 LSI文本相似度索引 在上面的主题分析和文本聚类分析中,“融资”这个关键词出现了若干次,它成功的攫取了笔者的眼球。为此,笔者想通过“融资”这个关键词去找寻与其最相关的TOP20新闻标题。在这里,笔者不采用直接通过关键词查找的方法去寻找这些相关标题,而是通过语义上的关联性去寻找,也就是说,即使这些语句不包含“融资”二字,只要体现这个含义就是我要寻找的目标。 鉴于此,笔者采用了基于LSI(Latent Semantic Index,潜在语义索引)的方法去查找文本相似度最高的20个语句,大致上比较文本向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似度越高。详细的原理推导,小伙伴们可以自行Google脑补。 经过分析,找到了跟“融资”语义最相关的20条新闻。可以看到,里面很多没有包含“融资”二字,但意义上都有体现资本运作,比如“共享单车又掀起新一轮‘互掐’”这条新闻,里面有这样的论述:“公开资料显示,截至2017年4月,两家公司共计融资总额超过10亿美元,其中ofo刚刚完成D3轮融资,估值超过16亿美元”,第二个“…ofo共享单车获4.5亿美元”,也是讲的融资方面的新闻,剩下的相似语句以此类推。 从这些新闻标题来看,共享单车领域的竞争不仅出现在用户获取和地盘争夺上,在资本领域的也是刀光剑影,撕得不可开交。 由此可以看到,计算机通过LSI算法变得“聪明”了不少,在某种程度上,能“理解”自然语言了! 8 Word2vec 最后进行的是基于Word Embedding的Word2vec词向量分析,将正文分词文本直接进行词向量模型训练,然后用来进行关联词分析。 Word2vec是Word Embedding(词嵌入)中的一种,是将文本进行词向量处理,将这些词汇映射到向量空间,变成一个个词向量(WordVector),以使这些词汇在便于被计算机识别和分析的同时,还具有语义上的关联性,而不仅仅是基于词汇之间的共现关系。类似的例子可以参看笔者之前的文章《用数据全方位解读<欢乐颂2>》、《以<大秦帝国之崛起>为例,来谈大数据舆情分析和文本挖掘》。 首先,笔者对共享单车的2大巨头—摩拜单车、ofo(小黄车)及其各自CEO的相关词汇感兴趣,分析结果如下: 从上图可以看出,跟“胡玮炜”、“摩拜”最相关的词汇是“陈伟鸿”,是中央电视台的主持人、记者、编辑、制片人,而胡玮炜毕业于浙江大学城市学院新闻系,在《每日经济新闻》、《新京报》、《商业价值》等媒体做过记者和报道。也就是说,他们有着类似的从业经历,而且在6月25日的央视《对话》节目中,作为主持人的陈伟鸿与作为嘉宾的胡玮炜有了交集。排在第二位的是她的对手ofo的CEO戴威。值得注意的是,出现在关联词列表中的 “(王)晓峰”,曾任职Uber上海城市总经理,是摩拜单车大股东李斌“邀请”来担任摩拜CEO一职的,理由是媒体出身的胡玮炜在经营层面缺乏经验,由此业界传闻“王晓峰是资本派来的管家”不胫而走。“晓峰”后面紧随“昆仑决”,根据语境来讲,这里的“昆仑决”应该不是实指青海卫视的那项世界职业搏击赛事,而是用以隐喻共享单车行业竞争激烈的现状,而且这种具有画面感的语义联想在媒体的报道中比较频繁。 (责任编辑:本港台直播) |