系列文章总目录:Python数据分析及可视化实例目录
1.项目背景:
接上一期:Python数据分析之文本处理文本相似度
PS趁热打铁
2.分析步骤:
(1)如何加载前几期处理好的字典、预料包;
(2)计算tf-idf 和 lsi;
(3)转化为lsi模型, 可用作聚类或分类;如:利用Sklearn中的模型进行文本分类。
(4)LDA模型,将每篇文档主题以概率的形式给出。
参考资料:主题模型TopicModel:通过gensim实现LDA - 皮皮blog - CSDN博客
3.源码:
胶水语言博大精深,
本主只得一二为新人带路
领取专属 10元无门槛券
私享最新 技术干货