5.准备停用词
6.导入新闻组数据
7.删除电子邮件和换行符
8.标记单词和清理文本
9.创建Bigram和Trigram模型
10.删除停用词,制作双字母组合词和词形变换
11.创建所需的词典和语料库主题建模...此版本的数据集包含来自20个不同主题的大约11k个新闻组帖子。这可以作为newsgroups.json使用。
这是使用导入的pandas.read_json,结果数据集有3列,如图所示。...删除电子邮件和额外空格后,文本仍然看起来很乱。它尚未准备好让LDA消费。您需要通过标记化将每个句子分解为单词列表,同时清除过程中的所有杂乱文本。..., 'whatev', 'info', 'funky', 'look', 'car', 'mail', 'thank', 'bring', 'neighborhood', 'lerxst']]
11.创建主题建模所需的词典和语料库...根据Gensim文档,默认为1.0 / num_topics之前。
chunksize是每个训练块中使用的文档数。update_every确定应更新模型参数的频率,以及passes培训通过的总数。