假设我有一组100
文档,70
谈到政治,30
谈到数学(我知道这是一个奇怪的组合)。我的目标是通过多维尺度分析、网络分析、som等方法在xy上表示它们。当我考虑整个文档时,我喜欢这样做:
显然,我可以为这两种不同的图形,但我想做一些不同的事情。我有三个身体(docs_tot,docs_P,docs_M)和三个文档术语矩阵(dtm_tot,dtm_P,dtm_M)。
解决办法:
1)表示xy上的文档总数,不同的是政治文档和数学文档。通过这种方式,我可以看到它们是否代表xy上的自然星系团。
2)对差异进行网络分析。是否有一种概念性的方法来细分,例如,dtm_P和dtm_tot,因为知道dtm_P只有一个子集(70)的dtm_tot文档(100)?
发布于 2016-03-31 23:07:24
这听起来像是您可能会考虑使用comparison.cloud()
。下面是wordcloud
包帮助页面中的一个示例:
library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)
这也适用于两个以上的组,如所示,例如here。
希望这能有所帮助。
https://stackoverflow.com/questions/36349818
复制相似问题