这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布。...在了解本篇内容之前,推荐先阅读相关的基础知识:
LDA文档主题生成模型入门
结巴中文分词介绍
爬取百度百科5A景点摘要并实现分词
使用scikit-learn计算文本TF-IDF值
一、完整程序
from...(weight))
# 主题-词分布
topic_word = model.topic_word_ #生成主题以及主题中词的分布
print("topic-word:\n",...-词分布
lda.LDA(n_topics = 2, n_iter = 500, random_state = 1)
n_topics表示主题数,这里因为文件较少,咱们一眼就可以看出主题是两个。...最终10篇文章分别对应于主题1, 1, 0, 0, 1, 1, 0, 0, 1, 0。
?
doc_topic.png
这里列出了其中6个文档的主题分布图。