Tm_map问题(removeWords，停用词(“英语”))

文章/答案/技术大牛

发布

1回答

我正在努力使用removeWords停用词 source("Project_Functions.R")# ==== # pdf.loc <-Corpus(URISource(myFiles), readerControl=list(reader=readPlain))#Docs.corpus <-tm_map(Docs.corpus, tolower) Docs.corpus <-tm_map<

浏览 53提问于2020-04-14得票数 0

1回答

tm_map:可以将删除词函数与我自己注册为txt文件的停止词一起使用吗？

、、

我使用R tm包对facebook的一个群组进行文本分析，发现removewords功能对我不起作用。我试着把法语停用词和我自己的停用词结合起来，但它们仍然在出现。readLines(groupe_fb_ief, encoding="UTF-8")```inspect(docs) docs <- tm_map(docs, tolower) docs <- tm

浏览 25提问于2019-10-29得票数 1

回答已采纳

1回答

删除除"you“、"your's”、"me“、”me“之外的所有停用词

、、

我正在尝试删除所有的英文停用词，除了"you/your's"，“me/ my”，因为这些词对我的分析很重要。有人能帮我解决这个问题吗？我对R非常陌生，所以我知道我会用下面的代码删除停用词： corpus <- tm_map(corpus, removeWords, stopwords("english")) ..。

浏览 34提问于2020-07-29得票数 0

回答已采纳

2回答

tm_map到删除包含我的停止词的单词？

、

我正在应用removeWords来过滤这样的语料库：corpus <- tm_map(corpus, content_transformer(tolower))corpus <- tm_map(corpus, removeWords, c(stopwords

浏览 5提问于2016-11-04得票数 1

回答已采纳

1回答

R中的文本挖掘:计算2-3个单词短语

、

我在Stackoverflow - (credit @patrick perry)中发现了一段非常有用的代码，可以显示语料库中2个和3个单词短语的频率：corpus <- gutenberg_corpus(55) # Project Gutenberg #55, _The Wizard of Oz_term_stats(corpus, ngrams = 2:3) ## term count sup

浏览 33提问于2020-06-06得票数 0

回答已采纳

1回答

计算r中的词共现矩阵

、

我想在R中计算一个单词共现矩阵。我有以下句子的数据框架-dat[2,1] <- c("The girl is short.")这给了我The girl is short. The tall boy and the sho

浏览 6提问于2016-11-07得票数 2

3回答

有没有一种方法可以从r中的语料库中删除前导空格？

删除停用词后，我发现许多条目的开头都有一个空格。是否可以从VCorpus中删除有前导空格的前导空格？VCorpus(VectorSource(frasi)) corpus <- tm_map(corpus, removeWords, st

浏览 28提问于2020-05-03得票数 0

回答已采纳

4回答

R's tm字数统计软件包

、、、、

我想得到每个文件在运行预处理后的每个单独的字数(转到较低，删除停用词等)。我对单个文本文件的字数统计一无所获。任何帮助都将不胜感激。library(tm)revs<-tm_map(revs,tolower) revs<-tm_map(revs,remove

浏览 0提问于2014-10-22得票数 2

1回答

修正R's TM软件包中的停止词

、、、

我有一个问题，从R的TM包修改english.dat停止字文件。我给它加的任何东西都是不被认可的。我试着在文件的开头添加，中间的，结尾的，仍然没有效果。只识别文件的原始文本。

浏览 3提问于2014-06-02得票数 1

回答已采纳

1回答

R removewords* tm将停止字文件视为正则表达式而不是逐字*

、、

如何从library(tm)强制removeWords逐字(逐字)获取停用词列表中的每个单词，而不是作为正则表达式？stopwordlist.txt", header = FALSE, sep = "\n", quote = "", fill = TRUE, comment.char = "")corpus = tm_map(corpus, removeWords, custom_stopwords$V1) 我希望removeWords

浏览 8提问于2019-07-10得票数 0

1回答

寻找傻瓜式和文本消息风格的停用词

、、、

我使用R来挖掘tweet，我得到了tweet中使用频率最高的单词。然而，最常见的单词是这样的： [7] "que" "thats" "watching" "wish" "youre" 我正在寻找文本中的趋势和名称和事件。我想知道是否有一种方法可以删除这

浏览 0提问于2012-11-26得票数 3

回答已采纳

1回答

为什么没有过滤掉“term”合并后的术语文档矩阵中的停用词？

、、

encoding="ASCII"), crp <- tm_map(crp, removeWords, stopwords("english")) crp <- <

浏览 13提问于2015-08-20得票数 0

1回答

根据长长的列表删除停用词

、

我有一个60000行/短语的数据帧，我想将其用作停用词并从文本中删除。我使用tm package，并在读取带有停用词列表的csv文件后使用下面这一行： PCRE pattern compilation error at '' 这个列表太大了，有什

浏览 0提问于2017-11-07得票数 1

3回答

创建源代码语料库中的拆分标识符和方法名

、、

我遵循本文中的预处理步骤-- Tm_map已经完成的单词词干(dsc，stemDocumentfinally","long","vol

浏览 5提问于2014-09-20得票数 1

回答已采纳

6回答

tm_map在Mac上的R 3.0.1中存在parallel::mclapply错误

、、、

我在平台上使用的是R 3.0.1 : x86_64-apple-darwin10.8.0 (64位)library(tm)tm_map(crude, stemDocument)Warning message: all scheduled cores encountered errors in user code 有没有人知道解决这个问题

浏览 203提问于2013-08-17得票数 17

回答已采纳

1回答

语料库中如何检测外来词？

、

假设我使用tm包解析一个英语语料库，并且执行通常的清理步骤。library(tm)corpus <- Corpus(crude) corpus <- tm_map(corpus, content_transformer(removeWords)) stopwords("english")) corpus <- t

浏览 0提问于2016-04-29得票数 0

回答已采纳

1回答

和R一起从twitter上获取数据？

、、、

(tweets_corpus,removePunctuation,lazy= T)tweets_clean=tm_map(tweets_clean,removeWords,stopwords("english"),lazy = T)tweets_

浏览 1提问于2016-06-03得票数 2

回答已采纳

2回答

R tm removeWords函数不删除单词

、、、、

(paperCorp, removePunctuation) paperCorp <- tm_map(paperCorp, removeW

浏览 0提问于2015-08-26得票数 9

回答已采纳

2回答

removeWords不工作

、

JEOPARDY_CSV.csv', stringsAsFactors = FALSE) jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)jeopCorpus <- tm_map(jeopCorpus, removeWords,

浏览 6提问于2015-09-04得票数 4

回答已采纳

1回答

清理后停用词仍保留在语料库中

我正在尝试从我的语料库中删除停用词" the“，但是并不是所有的实例都被删除。(shakespeare, stripWhitespace)shakespeare <- tm_maptm documentation shakespeare <- tm_map(shakespeare, removeWords, c(stopwords("english"),&qu

浏览 17提问于2020-02-19得票数 1

回答已采纳

点击加载更多