我一直在为一个研究项目(使用Gensim和python)用自然语言编写叙事报告的LDA主题模型。我有几个较小的语料库(每个语料库从1400到200个文档-我知道,这很小!)我想进行比较,但除了查看每个LDA模型(例如使用pyLDAviz)之外,我不知道如何进行比较。我的学术背景不是CS,而且我对NLP还是个新手。
在语料库/主题模型中比较主题的一些好方法是什么?例如,是否可以估计两个LDA模型重叠的程度?或者,有没有其他方法来评估几个语料库的主题相似性?
提前感谢您的帮助!
发布于 2017-09-05 20:01:44
将语料库加入到一个大型语料库中,使用对你有好处的参数建立主题模型,然后比较主题在子语料库中的分布情况。
这是我所知道的唯一干净的方法。请注意,不同的随机种子产生不同的主题模型,所有其他参数都是固定的;没有这样的东西,即语料库的主题模型。
可以在this abstract中找到一个例子(其中子语料库是科学论文发表的不同年份)(完整引用:
@InProceedings{fankhauser-etal2016,
Title = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle = {Proceedings of DH 2016},
Year = {2016},
Address = {Krakow, Poland},
Month = {July 12-16},
url = {http://dh2016.adho.org/abstracts/322},
}
)。
https://stackoverflow.com/questions/46001910
复制相似问题