首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Gensim HDP主题模型:如何对多道语料库进行训练?

Gensim HDP主题模型:如何对多道语料库进行训练?
EN

Stack Overflow用户
提问于 2017-03-28 21:29:10
回答 2查看 1.6K关注 0票数 1

Gensim的主题建模(gensim.models.hdpmodel.HdpModel) HDP模型有一个构造函数,它接受一个名为max_chunks的参数。

在文档中,它说max_chunks是模型将要遍历的块的数量,如果这个数量大于所提供的语料库中的块数,则训练将环绕在语料库周围。

由于信息日志警告我的可能性函数一直在减少,我想我可能需要通过多个传递语料库来收敛。

LDA模型提供了passes参数来对多个迭代在语料库上进行训练的功能。我很难弄清楚HDP中的max_chunks如何映射到LDA中的passes

例如,假设我的语料库有1000000份文档。为了训练,比如说,我的语料库,max_chunks需要什么?

有什么建议吗?非常感谢

EN

Stack Overflow用户

回答已采纳

发布于 2018-11-02 07:36:01

class gensim.models.hdpmodel.HdpModel(corpus, id2word, max_chunks=None, max_time=None, chunksize=256, kappa=1.0, tau=64.0, K=15, T=150, alpha=1, gamma=1, eta=0.01, scale=1.0, var_converge=0.0001, outputdir=None, random_state=None)

我认为,如果您有1000000个文档,那么如果使用默认的256个块大小,则需要使用max_chunks=100000/ 256 *3强制3次传递。

我还收到了WARNING : likelihood is decreasing!消息,我认为我的语料库太小(608个短文本),而且太统一,无法在其中找到主题。

票数 0
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43080291

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档