最后,我也决定做一张关于主题建模(topic modeling)的论文的图。首先,我提取了所有论文的纯文本,将其表征化和小写化,并移除了 stopword。接着,我使用 LDA 对其进行了处理以发现 10 个隐主题(latent topic)。然后我使用 t-SNE 可视化了最靠前的作者,atv,并基于它们的隐主题相似度将其做成了一张二维图。最后,我手动为每一个聚类标注了一个词(根据 LDA 找到的排名最高的术语)。下面是前 50 位作者的可视化图:
我也为组织机构做了一张同样的图,但不打算用简单的单词做标记,因为重点大学会在不同的子领域发表研究。你可以自行分析这些内容:
原网址: ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |