在简短的非结构化文档中发现主题的最佳模型是什么,例如。短信还是推特消息?潜在的狄利克雷分配?
发布于 2011-10-07 17:21:10
LDA是可用于主题建模的最强大的模型之一,但将其应用于非常短的文本,如Twitter/微博帖子,可能需要一些额外的工作。this paper的作者讨论了LDA和另一种模型,并建议在运行主题模型之前聚合多个帖子。
注意术语:“主题定位”实际上是监督文档分类的旧同义词。
发布于 2016-03-23 21:45:38
将LDA等主题模型应用于短文本(例如推文)更具挑战性,因为此类文本中的数据稀疏和上下文有限。一种方法是在训练LDA之前将短文本组合成长伪文档。另一种简单的方法是假设每个文档只有一个主题。
对于短文本或Tweet上的主题建模,每个文档一个主题的Dirichlet多项混合(DMM)模型(单字混合)比LDA主题模型更好。您可以在jLDADMM包中找到LDA和DMM模型的实现。jLDADMM还提供了文档聚类评估来比较这些主题模型。
发布于 2011-10-07 19:03:42
我认为一切都依赖于数据。所以你也应该尝试纯TFIDF,LSI,LDA,kmeans,层次聚类来检测有用的短语和主题。
https://stackoverflow.com/questions/7677988
复制相似问题