文章/答案/技术大牛

发布

社区首页 >问答首页 >在自然语言中比较几个语料库的最佳方法是什么？

问在自然语言中比较几个语料库的最佳方法是什么？
EN

Stack Overflow用户

提问于 2017-09-01 22:01:30

回答 1查看 618关注 0票数 4

我一直在为一个研究项目(使用Gensim和python)用自然语言编写叙事报告的LDA主题模型。我有几个较小的语料库(每个语料库从1400到200个文档-我知道，这很小！)我想进行比较，但除了查看每个LDA模型(例如使用pyLDAviz)之外，我不知道如何进行比较。我的学术背景不是CS，而且我对NLP还是个新手。

在语料库/主题模型中比较主题的一些好方法是什么？例如，是否可以估计两个LDA模型重叠的程度？或者，有没有其他方法来评估几个语料库的主题相似性？

提前感谢您的帮助！

topic-modeling

python

nlp

nltk

lda

回答 1

Stack Overflow用户

发布于 2017-09-05 20:01:44

将语料库加入到一个大型语料库中，使用对你有好处的参数建立主题模型，然后比较主题在子语料库中的分布情况。

这是我所知道的唯一干净的方法。请注意，不同的随机种子产生不同的主题模型，所有其他参数都是固定的；没有这样的东西，即语料库的主题模型。

可以在this abstract中找到一个例子(其中子语料库是科学论文发表的不同年份)(完整引用：

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
}

)。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46001910

复制

相似问题

问在自然语言中比较几个语料库的最佳方法是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在自然语言中比较几个语料库的最佳方法是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在自然语言中比较几个语料库的最佳方法是什么？
EN