文章/答案/技术大牛

发布

社区首页 >问答首页 >R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库

问R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库
EN

Stack Overflow用户

提问于 2015-05-30 03:43:23

回答 2查看 2.9K关注 0票数 2

我有两个包含相似单词的语料库。与此相似的是，使用setdiff对我的事业没有真正的帮助。因此，我转向了寻找一种方法来提取更频繁的单词的列表或语料库(最终形成一个单词云)(假设这样的事情会有一个阈值-所以可能会增加50%的频率？)在语料库1中，与语料库2相比。

这就是我现在拥有的一切：

> install.packages("tm")
> install.packages("SnowballC")
> install.packages("wordcloud")
> install.packages("RColorBrewer")
> library(tm)
> library(SnowballC)
> library(wordcloud)
> library(RColorBrewer)

> UKDraft = read.csv("UKDraftScouting.csv", stringsAsFactors=FALSE)
> corpus = Corpus(VectorSource(UKDraft$Report))
> corpus = tm_map(corpus, tolower)
> corpus = tm_map(corpus, PlainTextDocument)
> corpus = tm_map(corpus, removePunctuation)
> corpus = tm_map(corpus, removeWords, c("strengths", "weaknesses", "notes",  "kentucky", "wildcats", stopwords("english")))
> frequencies = DocumentTermMatrix(corpus)
> allReports = as.data.frame(as.matrix(frequencies))

> SECDraft = read.csv("SECMinusUKDraftScouting.csv", stringsAsFactors=FALSE)
> SECcorpus = Corpus(VectorSource(SECDraft$Report))
> SECcorpus = tm_map(SECcorpus, tolower)
> SECcorpus = tm_map(SECcorpus, PlainTextDocument)
> SECcorpus = tm_map(SECcorpus, removePunctuation)
> SECcorpus = tm_map(SECcorpus, removeWords, c("strengths", "weaknesses", "notes", stopwords("english")))
> SECfrequencies = DocumentTermMatrix(SECcorpus)
> SECallReports = as.data.frame(as.matrix(SECfrequencies))

因此，如果单词"wingspan“在corpus#2 ('SECcorpus')中有100个计数频率，但在corpus#1 (‘corpus#1’)中有150个计数频率，我们会希望这个单词出现在我们得到的语料库/列表中。

corpus

text-analysis

word-cloud

term-document-matrix

回答 2

Stack Overflow用户

发布于 2015-05-31 05:54:59

我可以建议一种更简单的方法，基于我与Paul Nulty共同开发的新文本分析包。

我无法访问您的文本，但这将以类似的方式为您的示例工作。创建两组文档的语料库，然后添加一个文档变量(使用docvars)，然后在新的文档分区变量上创建一个文档特征矩阵分组。其余的操作都很简单，请参见下面的代码。请注意，默认情况下，dfm对象是稀疏矩阵，但是特性子集尚未实现(下一版本！)。

install.packages(quanteda)
library(quanteda)

# built-in character vector of 57 inaugural addreses
str(inaugTexts)

# create a corpus, with a partition variable to represent
# the two sets of texts you want to compare
inaugCorp <- corpus(inaugTexts, 
                    docvars = data.frame(docset = c(rep(1, 29), rep(2, 28))),
                    notes = "Example made for stackoverflow")
# summarize the corpus
summary(inaugCorp, 5)

# toLower, removePunct are on by default
inaugDfm <- dfm(inaugCorp, 
                groups = "docset", # by docset instead of document
                ignoredFeatures = c("strengths", "weaknesses", "notes", stopwords("english"))),
                matrixType = "dense")

# now compare frequencies and trim based on ratio threshold
ratioThreshold <- 1.5
featureRatio <- inaugDfm[2, ] / inaugDfm[1, ]
# to select where set 2 feature frequency is 1.5x set 1 feature frequency
inaugDfmReduced <- inaugDfm[2, featureRatio >= ratioThreshold]

# plot the wordcloud
plot(inaugDfmReduced)

我建议您将一些选项传递给wordcloud() ( plot.dfm()使用的)，可能是为了限制要绘制的要素的最小数量。

我很乐意为您在使用quanteda包时遇到的任何问题提供帮助。

新

这里是直接针对您的问题的一次尝试。此外，如果您的R技能有限，您可能会发现这很难理解；如果您没有看过quanteda的任何文档(遗憾的是，现在的文档很有限)，也是如此。

# read in each corpus separately, directly into quanteda
mycorpus1 <- corpus(textfile("UKDraftScouting.csv", textField = "Report"))
mycorpus2 <- corpus(textfile("SECMinusUKDraftScouting.csv", textField = "Report"))
# assign docset variables to each corpus as appropriate 
docvars(mycorpus1, "docset") <- 1 
docvars(mycorpus2, "docset") <- 2
myCombinedCorpus <- mycorpus1 + mycorpus2

然后，如上所述继续执行dfm步骤，用myCombinedCorpus替换inaugTexts。

票数 3

Stack Overflow用户

发布于 2017-04-06 13:15:07

我正在更新@ken Benoit的答案，因为它已经有几年的历史了，而quanteda包在语法上经历了一些重大的变化。

当前版本应为(2017年4月)：

str(inaugTexts)

# create a corpus, with a partition variable to represent
# the two sets of texts you want to compare
inaugCorp <- corpus(inaugTexts, 
                docvars = data.frame(docset = c(rep(1, 29), rep(2, 29))),
                notes = "Example made for stackoverflow")
# summarize the corpus
summary(inaugCorp, 5)


inaugDfm <- dfm(comment_corpus, 
            groups = "docset", # by docset instead of document
            remove = c("<p>", "http://", "www", stopwords("english")),
            remove_punct = TRUE,
            remove_numbers = TRUE,
            stem = TRUE)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30537853

复制

相似问题

问R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库
EN