居然没有做中文停用词(stop words)去除!没错,为了演示的流畅,我们这里忽略了许多细节。很多内容使用的是预置默认参数,而且完全忽略了中文停用词设置环节,因此“这个”、“如果”、“可能”、“就是”这样的停用词才会大摇大摆地出现在结果中。不过没有关系,完成比完美重要得多。知道了问题所在,后面改进起来很容易。有机会我会写文章介绍如何加入中文停用词的去除环节。 另外,不论是5个还是10个主题,可能都不是最优的数量选择。你可以根据程序反馈的结果不断尝试。实际上,可以调节的参数远不止这一个。如果你想把全部参数都搞懂,可以继续阅读下面的“原理”部分,按图索骥寻找相关的说明和指引。 原理 前文我们没有介绍原理,而是把LDA当成了一个黑箱。不是我不想介绍原理,而是过于复杂。 只给你展示其中的一个公式,你就能管窥其复杂程度了。 透露给你一个秘密:在计算机科学和数据科学的学术讲座中,讲者在介绍到LDA时,都往往会把原理这部分直接跳过去。 好在你不需要把原理完全搞清楚,j2直播,j2直播,再去用LDA抽取主题。 这就像是学开车,你只要懂得如何加速、刹车、换挡、打方向,就能让车在路上行驶了。即便你通过所有考试并取得了驾驶证,你真的了解发动机或电机(如果你开的是纯电车)的构造和工作原理吗? 但是如果你就是希望了解LDA的原理,那么我给你推荐2个学起来不那么痛苦的资源吧。 首先是教程幻灯。slideshare是个寻找教程的好去处。这份教程 浏览量超过20000,内容深入浅出,讲得非常清晰。 教程链接: https://www.slideshare.net/clauwa/topic-models-lda-and-correlated-topic-models?next_slideshow=1 但如果你跟我一样,是个视觉学习者的话,我更推荐你看这段Youtube视频。 视频地址: https://www.youtube.com/watch?v=BuMu-bdoVrU 讲者是Christine Doig,来自Continuum Analytics。咱们一直用的Python套装Anaconda就是该公司的产品。 Christine使用的LDA原理解释模型,不是这个LDA经典论文中的模型图(大部分人觉得这张图不易懂): 她深入阅读了各种文献后,总结了自己的模型图出来: 用这个模型来解释LDA,你会立即有豁然开朗的感觉。 祝探索旅程愉快! 讨论 除了本文提到的LDA算法,你还知道哪几种用于主题抽取的机器学习算法?你觉得主题建模(topic model)在信息检索等领域还有哪些可以应用的场景?欢迎留言分享给大家,我们一起交流讨论。 作者简介 王树义:终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。个人公众号:玉树芝兰。 【完】 一则通知 量子位正在组建自动驾驶技术群,面向研究自动驾驶相关领域的在校学生或一线工程师。李开复、王咏刚、王乃岩、王弢等大牛都在群里。欢迎大家加量子位微信(qbitbot),备注“自动驾驶”申请加入哈~ 招聘 量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。 追踪人工智能领域最劲内容 (责任编辑:本港台直播) |