这里介绍一款软件——“八爪鱼采集器”,即使不会写代码,也能快速的获取自己想要的数据!(这软件也是平时没事逛简书,atv直播,在龙潇Shana的文章中发现的,强烈安利)
通过八爪鱼和一些公开数据,我们就能获取到针对单个疾病的咨询内容的数据,这样我们就能分析用户在某类疾病下普遍会去咨询医生的内容是什么。
再举个栗子,每周周五的时候,经常对着咨询数据的周报发愣——这周数据为何变动怎么大?大涨或大跌了,发生了什么事情? 这时候通过八爪鱼去爬一些异常波动科室最近2-3天的数据,或指定某天波动特别明显的数据,这样就能知道用户在这段异常波动期间哪些咨询内容成为了热点?例如流感在咨询的内容中被提及的次数多了,我们就能知道最近流感高峰期来了。
第二步:提取内容关键词 回顾下我们的三个步骤: 收集用户的内容数据 提取内容关键词 分析关键词,运用于产品 在第一步的收集用户内容数据中,我通过采集数据的软件收集了用户在某天的咨询问题,共15859条。
通过第一步抓取用户的数据,成功获得 《带有大量文本内容的数据表格》 X1 仅将其中的咨询内容单独拎出,就已经有130W字的内容数据。
但是这些内容数据长短不一且数据量并不小,问的问题也不尽相同,例如: “片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?” “谢谢主任的讲解,那到底现在能不能做手术呢?毕竟是肿瘤也不能拖。” “孩子年龄很小,夜里踢被子很容易胃部受凉而出现上述症状!建议多喝白开水、、少吃多餐、肚脐贴,必要时去医院看看” 如果仅仅针对一个句子一个句子进行分析,不单没法量化,而且需要花费大量的时间,咋办? 一句一句分析的办法肯定行不通,这时候就要祭出提取关键词大法了。
什么是关键词? 通过关键词提取软件,将上述的大段文本切成不同的词汇,再找出关键词,将关键词按照词频和权重进行排序,就知道哪些词汇是用户提及最多,最重要的。 这里可能要问,什么是关键词? 高中时候我们都作过阅读理解,关键词就是在一篇阅读理解中反复出现或比较重要的词汇。 这里我们有两个概念: 词频,用来描述出现的次数; 权重,用来表示这个词汇的重要程度。 例如“片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?”,切词之后就变成“片子,是,术前,还是,术后,复查…” “术前”的词频为2,因为它出现了两次,但是“术前”词汇的权重呢?这里无法直接给出,但是在统计学上,越常词汇的权重就越小,例如“我,你,他”,同理,不常见的词汇,例如“肿瘤”,权重就会较大。 (责任编辑:本港台直播) |