首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在bertopic建模中获得每个主题的所有docoments

如何在bertopic建模中获得每个主题的所有docoments
EN

Stack Overflow用户
提问于 2021-10-27 14:52:57
回答 1查看 357关注 0票数 0

我有一个数据集,并试图使用berTopic建模将其转换为主题,但问题是,我无法获得主题的所有结果。对于每个主题,berTopic只返回3个结果。

代码语言:javascript
运行
复制
topic_model  = BERTopic(verbose=True, embedding_model=embedding_model,
                                nr_topics = 'auto',
                                n_gram_range = (3,3),
                                top_n_words = 10,
                               calculate_probabilities=True, 
                              seed_topic_list = topic_list,
                              )
topics, probs = topic_model.fit_transform(docs_test)
representative_doc = topic_model.get_representative_docs(topic#1)
representative_doc

this topic contain more then 300 documents but bertopic only shows 3 of them with .get_representative_docs

EN

回答 1

Stack Overflow用户

发布于 2021-11-24 14:19:58

可能有更优雅的解决方案,因为我不是专家,但我可以分享对我有效的解决方案(因为还没有答案):

" topics,probs = topic_model.fit_transform(docs_test)“返回主题。

因此,您可以将此输出和文档组合在一起。例如,使用以下命令将它们组合成一个(pandas.)数据帧

代码语言:javascript
运行
复制
df = pd.DataFrame({'topic': topics, 'document': docs_test})

现在,您可以为每个主题过滤此数据帧,以识别引用文档。

代码语言:javascript
运行
复制
topic_0 = df[df.topic == 0]
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69740911

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档