下面进入到词云的关键一步了:词频统计。我们需要统计有效词集中每个词的出现次数,然后按照次数从多到少进行排序。其中统计使用groupby函数,排序使用sort函数。 代码如下: In [19]: words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)words_stat#打印统计结果/opt/ds/lib/python2.7/site-packages/ipykernel/__main__.py:2: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....) from ipykernel import kernelapp as app Out[19]: segment 计数180 紫霞 80 193 至尊宝 52 112 悟空 18 140 月光宝盒 7 66 嘻嘻 6 11 上天 6 87 安排 5 184 老婆 4 60 告诉 4 173 真的 4 84 姻缘 3 85 娘子 3 21 交代 3 88 宝剑 3 89 宝盒 3 175 知不知道 3 15 不行 3 14 不用 3 98 干什么 3 177 神仙 3 137 明白 3 73 多久 2 57 后悔 2 182 终于 2 69 回忆 2 170 痛苦 2 114 意中人 2 167 留下 2 165 生气 2 82 姐姐 2 ... ... ... 121 我托 1 123 我要 1 124 扔掉 1 125 找到 1 100 干成 1 97 帮个 1 62 唾骂 1 95 师傅 1 63 喂喂 1 65 嘟嘟声 1 67 回到 1 68 回去 1 70 回来 1 71 地方 1 72 夕阳 1 74 大姐 1 75 天黑 1 76 太晚 1 77 女人 1 78 女孩子 1 79 好不好 1 80 好怪 1 81 如意郎君 1 83 姑娘 1 86 孙悟空 1 91 家里 1 92 寂寞 1 93 小心 1 94 就象 1 227 齐天大圣 1 228 rows × 2 columns 5.做词云开启亮瞎眼么么哒模式 (责任编辑:本港台直播) |