Gensim的主题建模(gensim.models.hdpmodel.HdpModel) HDP模型有一个构造函数,它接受一个名为max_chunks
的参数。
在文档中,它说max_chunks
是模型将要遍历的块的数量,如果这个数量大于所提供的语料库中的块数,则训练将环绕在语料库周围。
由于信息日志警告我的可能性函数一直在减少,我想我可能需要通过多个传递语料库来收敛。
LDA模型提供了passes
参数来对多个迭代在语料库上进行训练的功能。我很难弄清楚HDP中的max_chunks
如何映射到LDA中的passes
。
例如,假设我的语料库有1000000份文档。为了训练,比如说,我的语料库,max_chunks
需要什么?
有什么建议吗?非常感谢
发布于 2018-11-02 07:36:01
class gensim.models.hdpmodel.HdpModel(corpus, id2word, max_chunks=None, max_time=None, chunksize=256, kappa=1.0, tau=64.0, K=15, T=150, alpha=1, gamma=1, eta=0.01, scale=1.0, var_converge=0.0001, outputdir=None, random_state=None)
我认为,如果您有1000000个文档,那么如果使用默认的256个块大小,则需要使用max_chunks=100000/ 256 *3强制3次传递。
我还收到了WARNING : likelihood is decreasing!
消息,我认为我的语料库太小(608个短文本),而且太统一,无法在其中找到主题。
https://stackoverflow.com/questions/43080291
复制相似问题