文章/答案/技术大牛

发布

社区首页 >问答首页 >文档术语矩阵之间的“差异”

问文档术语矩阵之间的“差异”
EN

Stack Overflow用户

提问于 2016-04-01 06:52:00

回答 1查看 594关注 0票数 2

假设我有一组100文档，70谈到政治，30谈到数学(我知道这是一个奇怪的组合)。我的目标是通过多维尺度分析、网络分析、som等方法在xy上表示它们。当我考虑整个文档时，我喜欢这样做：

我制作了一个包含100个元素的语料库(docs)；
从语料库中创建文档术语矩阵(dtm)；
通过dtm，我创建了一个距离矩阵(dist)，它涉及组成文档的术语或文档本身(根据我想要表示的内容)。

显然，我可以为这两种不同的图形，但我想做一些不同的事情。我有三个身体(docs_tot，docs_P，docs_M)和三个文档术语矩阵(dtm_tot，dtm_P，dtm_M)。

解决办法：

1)表示xy上的文档总数，不同的是政治文档和数学文档。通过这种方式，我可以看到它们是否代表xy上的自然星系团。

2)对差异进行网络分析。是否有一种概念性的方法来细分，例如，dtm_P和dtm_tot，因为知道dtm_P只有一个子集(70)的dtm_tot文档(100)？

corpus

term-document-matrix

回答 1

Stack Overflow用户

发布于 2016-04-01 07:07:24

这听起来像是您可能会考虑使用comparison.cloud()。下面是wordcloud包帮助页面中的一个示例：

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

这也适用于两个以上的组，如所示，例如here。

希望这能有所帮助。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36349818

复制

相似问题

问文档术语矩阵之间的“差异”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档术语矩阵之间的“差异”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档术语矩阵之间的“差异”
EN