首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文档术语矩阵之间的“差异”

文档术语矩阵之间的“差异”
EN

Stack Overflow用户
提问于 2016-04-01 06:52:00
回答 1查看 594关注 0票数 2

假设我有一组100文档,70谈到政治,30谈到数学(我知道这是一个奇怪的组合)。我的目标是通过多维尺度分析、网络分析、som等方法在xy上表示它们。当我考虑整个文档时,我喜欢这样做:

  • 我制作了一个包含100个元素的语料库(docs);
  • 从语料库中创建文档术语矩阵(dtm);
  • 通过dtm,我创建了一个距离矩阵(dist),它涉及组成文档的术语或文档本身(根据我想要表示的内容)。

显然,我可以为这两种不同的图形,但我想做一些不同的事情。我有三个身体(docs_tot,docs_P,docs_M)和三个文档术语矩阵(dtm_tot,dtm_P,dtm_M)。

解决办法:

1)表示xy上的文档总数,不同的是政治文档和数学文档。通过这种方式,我可以看到它们是否代表xy上的自然星系团。

2)对差异进行网络分析。是否有一种概念性的方法来细分,例如,dtm_P和dtm_tot,因为知道dtm_P只有一个子集(70)的dtm_tot文档(100)?

EN

回答 1

Stack Overflow用户

发布于 2016-04-01 07:07:24

这听起来像是您可能会考虑使用comparison.cloud()。下面是wordcloud包帮助页面中的一个示例:

代码语言:javascript
运行
复制
library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

这也适用于两个以上的组,如所示,例如here

希望这能有所帮助。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36349818

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档