Python数据分析及可视化实例之抽取文本主题

系列文章总目录:Python数据分析及可视化实例目录

1.项目背景:

接上一期:Python数据分析之文本处理文本相似度

PS趁热打铁

2.分析步骤:

(1)如何加载前几期处理好的字典、预料包;

(2)计算tf-idf 和 lsi;

(3)转化为lsi模型, 可用作聚类或分类;如:利用Sklearn中的模型进行文本分类。

(4)LDA模型,将每篇文档主题以概率的形式给出。

参考资料:主题模型TopicModel:通过gensim实现LDA - 皮皮blog - CSDN博客

3.源码:

胶水语言博大精深,

本主只得一二为新人带路

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180206A0LZEE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券