不同词汇在不同的语境下的重要程度是不同的,假如一篇专门讲述手术的文章,和一篇专门讲述糖尿病的文章都有提及“糖尿病”这个词汇,词汇“糖尿病”明显对于讲述糖尿病的文章是更重要的,但是词汇“糖尿病”在不同的文章中的权重又相同。 这时候如何突出关键词“糖尿病”词汇对于糖尿病文章的重要性呢? 为了思考这个问题,逛了逛知乎,在上面看到了一种关键词提取的理论——TF-IDF法 TF-IDF=词频(TF)*逆文档频率(IDF) 原理这里不展开讲,我们可以简单粗暴的理解为一个关键词的重要程度可以这样判断 关键词重要程度=词频*权重 提取关键词的方法理论比较复杂,但我们不需要了解背后的机制,使用一些切词软件就能帮我们提取出大段内容的关键词,而且还含有词频和权重(至于这些切词软件是否使用的是TD-IDF的理论不得而知,暂且认为是吧。) 这样,通过切词软件,我们终于从一堆长长的文本中提取出了关键词。 得到 《带有词频及权重的关键词表格》 X1
导出Excel表格将关键词的词频和权重分数相乘再倒序排列,这样我们能知道哪些词汇是出现频率高且权重大的关键词。 第三步:分析关键词,运用于产品 经过前面两步,我们手中已经有了 《带有大量文本内容的数据表格》 X1 《带有词频及权重的关键词表格》 X1 对着这两个表格,我们能做些什么? 先说个题外话,前阵子有位仁兄抓取了大量民谣的歌词,统计了歌词中常出现的词汇,同时使用了腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,对这些词汇的感情色彩进行分析。 得出了如下结论: 在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。 如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。 也许你认为这些关键词最大的用户无非就是写篇文章,博众人一笑,成为闲暇的谈资,那就错了! 既然这些关键词从真实的用户中来,那么通过关键词也能了解用户在想什么,也能用于产品中,例如运用于点评,咨询,文章,内容推荐等等。
关键词的运用场景 1. 点评 如果内容数据从点评中来,那么可以筛选出好评,中评,差评的内容,分别提取出对应评价的关键词。 在产品功能上,提供点评的便捷输入的标签,而标签的内容,就可以是用户常常使用的词汇(既你提取出的关键词)。
提供这些便捷输入能提升点评的体验,也能促使用户点评,提高总体的点评量。 2. 文章 一篇好文章最怕的是没有阅读量,但单单靠标题党绝对不是长久之计,真正从内容下功夫才是王道。 在对的场景中将用户感兴趣的文章推荐给他是提升阅读量的有效方法。 以医疗举例,在皮肤科的专题页面中,通过分析皮肤科用户的咨询数据,了解用户最常咨询的关键词是“湿疹”、“皮疹”、“皮炎”、“皮损”等等,那么文章的选题就可以从这些用户常咨询的关键词入手来展开。
3. 咨询主诉内容的填写 通过分析咨询内容,在用户填写自己病情的时候,显示出来对应的关键词标签,让用户点击快速输入,减少用户手动输入的内容。 既能帮助用户实现更高效的输入方式,同时通过标签的提醒,也能提醒用户自己是否存在同样的症状,在描述症状是更加的仔细,提高咨询填写主诉的质量。 4. 建立疾病和对应的同义词库 脑洞再大的时候(这里可能不科学,纯属脑洞),我们去分析某个疾病下用户的关键词是什么,将这些描述症状的关键词设为疾病的同义词,让两者建立关联关系。 这样做的好处在于,让用户在搜索某个疾病的症状的时候,例如牙疼,那么就能通过这些描述症状的关键词去找到对应的疾病名,开奖,提示用户可能的疾病是什么,提高搜索的准度。 最后:三步骤总结 至此,通过三步骤: (1) 收集用户的内容数据,我们获得了 《带有大量文本内容的数据表格》 X1 (2)通过提取内容关键词,我们获得了 《带有词频及权重的关键词表格》 X1 (3)通过分析关键词,运用于产品,我们可能会获得 点评功能 X 数据上涨 ↑ 资讯功能 X 数据上涨 ↑ 咨询功能 X 数据上涨 ↑ 搜索功能 X 数据上涨 ↑ 关键词运用的场景还能有很多,可以慢慢挖掘,欢迎交流。 推荐阅读 《有了手机号快捷登录,还需要密码登录吗?》 《账号体系设计:如何解决手机号二次使用导致的账号问题》 (责任编辑:本港台直播) |