在Quanteda中选择两个不连续的文件组成一个子语料库_在C#中解析CSV文件-跳过与两个IF条件之一不匹配的任何行_两个CSV文件，在由相同类型的值组成的单个列中，将第2个CSV文件中具有匹配值的一行中的一对进行匹配 - 腾讯云开发者社区

r、text-mining、lemmatization

我尝试在语料库上执行lemmatization，使用lemmatize_strings()函数作为tm_map() of tm包的参数。但我想使用我自己的字典("lexico“-第一列使用小写的完整单词形式，而第二列具有相应的替换词条)。我试着使用： corpus<-tm_map(corpus, lemmatize_strings) 但是没有用..。当我使用： lemmatize_strings(corpus[[1]], dictionary = lexico) 我没有问题！如何将我的字典"lexico“放在函数tm_map()中？很抱歉这个问题，这是我在48岁

浏览 17提问于2019-03-24得票数 1

1回答

R-从更大的语料库中删除语料库词集，以找到唯一的单词

r、corpus、text-analysis、word-cloud

我有两个语料库(我把它们转换成DocumentTermMatrices，数据帧，然后是词云)，其中一个是另一个的子集。准确地说，一个是关于一所大学的文本语料库，另一个是关于该会议中所有大学的文本语料库。在R中，有没有一种方法可以只提取较小词集独有的单词？这是我到目前为止为每个语料库运行的内容(这是针对‘会议’语料库的) > SECDraft = read.csv("SECDraftScouting.csv", stringsAsFactors=FALSE) > SECcorpus = Corpus(VectorSource(SECDraft$Report)) &g

浏览 2提问于2015-05-29得票数 2

1回答

答:我可以在两个单独的语料库上使用textstat_keyness吗？

r、quanteda

"textstat_keyness“的用法如下： textstat_keyness(x, target = 1L, measure = c("chi2", "exact", "lr", "pmi"), sort = TRUE, correction = c("default", "yates", "williams", "none")) “目标”是指“文档索引(数字、字符或逻辑)，以标识构成”目标“的文档，以计算密钥；所有其他文档的特征频率将合并为参考

浏览 1提问于2018-04-05得票数 0

2回答

将语料库从quanteda转换为tm

r、tm、corpus、quanteda

我的数据mycorpus是在一个quanteda语料库(corpus-function从quanteda)中，我需要将它转换为tm包下的语料库。我知道quanteda的convert-function。不过，这只会将文档功能矩阵转换为tm。我错过了什么快速的解决办法吗？tm的VCorpus(mycorpus)抛出错误消息“缺少源”

浏览 8提问于2021-07-21得票数 1

回答已采纳

1回答

语料库组合中语料库的Docvar指示器

r、quanteda

在组合quanteda语料库(使用加号运算符)时，是否有任何方法可以自动创建一个指示变量，以标记文档来自哪个源语料库？例如，假设你有两个语料库，corpus1和corpus2。您运行以下命令：语料3 <- corpus1 + corpus2 我想找到一些方法来创建一个新的docvar，它指示corpus3中每个文档来自哪个语料库。有什么想法吗？

浏览 0提问于2018-07-28得票数 1

回答已采纳

1回答

在Quanteda中选择两个不连续的文件组成一个子语料库

r、subset、corpus、quanteda

我希望得到关于选择两个或更多不连续的文件来形成子语料库的建议。这段代码选择一个文件: testcorpus <- text (txtdata)2 如果我想将文件1和25组合成一个语料库，我该怎么做：我尝试修改我在网上找到的代码，结果如下： > my_corpus1 <- corpus(txtdata)[1] > my_corpus2 <- corpus(txtdata)[25] > my_corpus3 <- ( my_corpus1 + my_corpus2) Error in my_corpus1 + my_corpus2 : non

浏览 13提问于2019-03-08得票数 1

回答已采纳

2回答

如何将自定义函数应用于quanteda语料库

r、text-mining、quanteda

我正在尝试将脚本从tm迁移到quanteda。阅读quanteda文档时，有一种将变更应用到“下游”以使原始语料库保持不变的哲学。好的。我以前写过一个脚本来查找tm语料库中的拼写错误，并得到我们团队的支持来创建一个手动查找。因此，我有一个csv文件有2列，第一列是拼写错误的术语，第二列是该术语的正确版本。在使用tm包之前，我这样做了： # Write a custom function to pass to tm_map # "Spellingdoc" is the 2 column csv library(stringr) library(stringi) library

浏览 2提问于2017-08-30得票数 1

回答已采纳

2回答

如何基于多个关键字从语料库中创建两个子集？

r、subset、corpus、quanteda

我正在与大量的政治演讲在quanteda工作，并希望创建两个子集。第一个词应包含一个或多个特定关键字清单(例如“移民*”、“移徙*”、“庇护*”)。第二个文件应包含不包含任何这些术语的文件(不属于第一个子集的发言)。如能对此提供任何意见，将不胜感激。谢谢! #first suggestion > corp_labcon$criteria <- ifelse(stringi::stri_detect_regex(corp_labcon, pattern=paste0(regex_pattern), ignore_case = TRUE, collapse="|"

浏览 11提问于2022-04-28得票数 0

回答已采纳

1回答

在R中创建文档频率矩阵

r、machine-learning

我试图在R中创建一个文档频率矩阵。我现在有一个dataframe (df_2)，它由2列组成： fromtext_token：doc_num:详细说明每个术语将要出现的文档，其中包含与每个文档相关的每个标记字。 df的尺寸为79,447 * 2。然而，79 447行中只有400份实际文件。我一直试图使用tm包创建这个dfm。我尝试创建一个语料库(向量源)，然后尝试使用适当命名的" dfm“命令将其强制到dfm中。但是，这表明" dfm ()只对字符、语料库、dfm、令牌对象工作。“据我所知，我的数据目前不符合dfm命令的正确格式。我的问题是，我不知道如何从我

浏览 2提问于2020-03-21得票数 0

1回答

基于字典的相对频率计算

r、dictionary、twitter、nlp、quanteda

我想用R.中的计算机辅助文本分析来研究创建者的心理资本(一种由四个维度组成的结构，即希望、乐观、效能和弹性)。到目前为止，我已经将来自不同用户的tweet拉进了R。数据框架包含来自5个不同时期的2130个tweet。dataframe称为before_failure。然后，我使用quanteda包创建了一个语料库，在其上完成了标记化，并删除了多余的标点符号/数字/符号： #Creating a corpus before_failure_corpus <- corpus(before_failure, text_field = "text") #Tokenizatio

浏览 10提问于2022-02-01得票数 1

回答已采纳

2回答

R文本挖掘-语料库中包含单词的文档数目中的单词频率

r、text-mining

findFreqTerms()命令会告诉我高频单词以及它们在语料库中出现了多少次。然而，我感兴趣的是不知道它们在语料库中出现了多少次，而是知道有多少文档包含了这些词。例如，如果我有一个由10个文档组成的语料库，而只有一个文档包含"error“一词，如果"error”一词在该文档中发生了100次，那么findFreqTerms( dtm，lowfreq=100)将返回"error“(其中dtm是我的数据术语矩阵)。类似地，使用freqcy <- colSums(as.matrix(dtm))，我将找到与之相关的“错误”为100的频率。然而，我想要返回的是一个1的答案

浏览 3提问于2015-12-24得票数 1

1回答

什么是正确的方法来制作语料库与阅读文本和定量？

r、corpus、quanteda

我需要些帮助。我试着用quanteda软件包制作一些语料库样本，但是它不像预期的那样工作。 library(quanteda) library(readtext) news <- corpus(readtext('./final/en_US/en_US.news.txt', dvsep = ' ')) #Yeah, it's from Coursera 然后我试着从整个语料库中抽取一个样本： set.seed(362) newsSample <- corpus_sample(news, size = 5000) R-studio告诉我，它不

浏览 3提问于2020-12-24得票数 0

1回答

dfm_weight()导致相对频率>1

r、nlp、quanteda、weighted

我正在使用Quanteda，并试图计算语料库中特定单词的相对频率，该语料库是按日期和当事方组织的。但是，在将语料库转换为dfm并使用dfm_weight(dfmat，than =“textstat_frequency”)之后，我得到了大于1的分数。下面是我的代码(我还拦截并清理了标记，而不是代码中的标记)： corp <- corpus(title_df, text_field = "text", meta = list(title_df[,-4])) toks <- tokens(corp) dfmat <- dfm(toks, verbose=TRUE)

浏览 5提问于2022-04-10得票数 0

1回答

Quanteda:如何创建单词的语料库和情节分散？

r、corpus、quanteda

我有一些数据，看起来像这样： date signs horoscope newspaper <chr> <chr> <chr> <chr> 1 06-06-20~ ARIES Your week falls neatly into distinct phases. The co

浏览 15提问于2021-11-01得票数 0

回答已采纳

1回答

从包含文档名称的df创建语料库

r、quanteda

我正在使用readtext包将我所有的文本文件读取到一个df中。 df <- readtext(directory, "*.txt") .txt文件使用doc_id (文档名)和text (内容)存储在df中。在我升级到最新版本的quanteda之前，当我使用以下命令创建语料库时，doc_id存储在语料库对象中： corpus <- corpus(df) 但现在这不再起作用了，语料库对象的'documents'-df只存储‘Texts值’，而不再存储doc_id-values。如何将doc_id返回到我的语料库对象中？

浏览 0提问于2018-05-05得票数 1

2回答

阅读R中语料库中每个文档的前两行

r、for-loop、corpus、readlines、quanteda

我很难弄清楚如何阅读R语料库中每个文档的前两行，前两行包含了我想分析的新闻文章的标题。我想搜索标题(而不是每一篇文章的其余部分)中的“中止”一词。下面是我创建语料库的代码： myCorp <- corpus(readtext(file='~/R/win-library/3.3/quanteda/Abortion/1972/*')) 我尝试在for循环中使用readLines： for (mycorp in myCorp) { titles <- readLines(mycorp, n = 2) write.table(mycorp, "1972_text_

浏览 7提问于2017-03-31得票数 1

回答已采纳

2回答

将文档从tm语料库拆分为多个文档

regex、r、split、tm、text-analysis

一个奇怪的问题是，是否有一种方法可以将使用tm中的语料库函数导入的语料库文档拆分成多个文档，然后在我的语料库中作为单独的文档重新阅读？例如，如果我使用inspect(documents[1])并拥有类似于 `<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>` `[[1]]` `<<PlainTextDocument (metadata: 7)>>` The quick brown fox jumped over the lazy dog I think cats are

浏览 4提问于2015-06-17得票数 2

回答已采纳

1回答

是否可以使用`kwic`函数来查找彼此相近的单词？

r、text-mining、quanteda

我找到了这个参考：有没有可能将它与quanteda包中的kwic函数一起使用，以便能够在语料库中找到文档，其中包含的单词不是“卡住”的，而是彼此接近的，中间可能还有一些其他单词？例如，如果我在函数中给出两个单词，我希望在语料库中找到这两个单词出现的文档，但可能中间有一些单词。例如，你告诉我“引擎”和“电气”，我也会得到“电气同步引擎”出现的报告，但不会得到“引擎”和“电气”出现在完全不同的上下文中的报告。

浏览 2提问于2018-04-19得票数 1

2回答

在txt中读取中文时出错:语料库()仅适用于字符、语料库、语料库、data.frame、kwic对象

r、text-mining、stringr、corpus、quanteda

我尝试生成一个词云，并使用R、jiebaR和语料库获取中文语音的词频，但无法建立语料库。下面是我的代码： library(jiebaR) library(stringr) library(corpus) cutter <- worker() v36 <- readLines('v36.txt', encoding = 'UTF-8') seg_x <- function(x) {str_c(cutter[x], collapse = '')} x.out <- sapply(v36, seg_x, USE.NAME

浏览 0提问于2020-01-28得票数 4

1回答

使用NLTK导入外部树库式BLLIP语料库

python、parsing、nlp、nltk、corpus

我已经下载了语料库，并希望将其导入到NLTK。我在问题的答案中描述了一种方法。在这个答案中，他们是为一个数据文件这样做的。我想把它们收集起来。 BLLIP语料库是由几百万个文件组成的集合，每个文件都包含几个被解析的句子。包含数据的主文件夹名为bllip_87_89_wsj，它包含3个子文件夹，1987、1988、1989 (每年一个)。在子文件夹1987中，您有子文件夹，每个子文件夹都包含许多与解析句子相对应的文件。子文件夹的名称类似于w7_001 (对于文件夹1987)，文件名是w7_001.000、w7_001.001等等。有了所有这些，我的任务如下：使用NLTK解析器顺序读取所有文件。

浏览 1提问于2017-03-06得票数 9

1回答

将tm语料库导入全德达语料库时出错

tm、quanteda

在我昨天决定更新R(3.6.3)和RStudio(1.2.5042)之前，这个代码片段工作得很好，尽管我并不认为这是问题的根源。简而言之，我将91个pdf文件转换为一个名为Vcorp的易失性语料库，并确认我创建了一个易失性语料库，如下所示： > Vcorp <- VCorpus(VectorSource(citiesText)) > class(Vcorp) [1] "VCorpus" "Corpus" 然后，我尝试将这个tm which导入quanteda，但是继续得到一个错误消息，这是我之前没有得到的(比如更新的前一天)。 >

浏览 2提问于2020-04-17得票数 0

回答已采纳

2回答

在R中创建单词云时出错(simple_triplet_matrix中的错误：'i，j，v‘不同长度)

r、text-processing、tm、word-cloud

我在R中有下面的代码来获取最近关于当地市长候选人的推文并创建一个wordcloud： library(twitteR) library(ROAuth) require(RCurl) library(stringr) library(tm) library(ggmap) library(plyr) library(dplyr) library(SnowballC) library(wordcloud) (...) setup_twitter_oauth(...) N = 10000 #Number of twetts S = 200 #200Km radius from Natal (Cover

浏览 0提问于2016-09-23得票数 0

回答已采纳

2回答

从函数中查找词频

r、rstudio、frequency、tm

我需要从我创建的函数中查找词条的频率，该函数在其中查找带有标点符号的词条。 library("tm") my.text.location <- "C:/Users/*/" newpapers <- VCorpus(DirSource(my.text.location)) 我读了它，然后生成函数： library("stringr") punctterms <- function(x){str_extract_all(x, "[[:alnum:]]{1,}[[:punct:]]{1,}?[[:alnum:]]{1,}

浏览 2提问于2018-11-01得票数 0

1回答

在版本>= 2中访问quanteda语料库数量时出现问题

r、text-mining、corpus、quanteda

我在运行之前编写的相同脚本时遇到了问题。那时，当我在readtext对象上应用quanteda::corpus时，它返回了一个"corpus“和"list”类对象。但是，当我运行相同的脚本时，它现在返回“语料库”和“字符”类对象。这会影响后续代码。出现这种情况的原因是什么?我如何解决这个问题？下面是脚本： txt <- readtext("C:/Users/aerol/Desktop/txt_sample") corpus_txt <- corpus(txt) %>% corpus_reshape(to = "sentences&

浏览 6提问于2021-01-12得票数 0

1回答

我在哪里可以得到在data_corpus_irishbudget2010站点的例子中使用的？

corpus、quanteda、dfm

我在中做了所有的练习，但是关于构建DFM的部分使用了一个名为data_corpus_irishbudget2010的语料库没有运行。这是代码： toks_irish <-记号(data_corpus_irishbudget2010，remove_punct = TRUE) dfmat_irish <- dfm(toks_irish) 打印(Dfmat_irish) 我知道这个错误：令牌中的错误(data_corpus_irishbudget2010，remove_punct = TRUE)：对象'data_corpus_irishbudget2010‘未找到我已经能够加

浏览 6提问于2020-04-17得票数 0

回答已采纳

1回答

显示特定文档变量的摘要

r、quanteda

我想对pdf文件的语料库做一个简短的总结。我希望包括以下列:文本类型、标记、句子(如quanteda快速入门指南中所示)，并排除所有其他列。从… names(docvars(corp_mk)) 我得到了 [1] "author" "datetimestamp" "description" "heading" "id" [6] "language" "origin" 这不应该显示在摘要中。我尝试在summar

浏览 31提问于2019-05-04得票数 1

回答已采纳

3回答

如何在Python中建立有效的字符串过滤器？

python、string、python-3.x、search

我有两个列表对象: wiki_text和语料库。wiki_text由小短语组成，语料库由长句组成。 wiki_text = ['never ending song of love - ns.jpg', 'ecclesiological society', "1955-56 michigan wolverines men's basketball team", 'sphinx strix', 'petlas', '1966 mlb draft', ...] corpus = [&

浏览 1提问于2018-09-07得票数 0

回答已采纳

1回答

用全德达测量媒体文章在一段时间内的共现模式

r、nlp、quanteda

我试着测量一年中每个季度，不同的词与某一特定术语在中国报纸上的文章集合中出现的次数。为了做到这一点，我一直在使用Quanteda，并编写了几个R函数来运行每组文章。我的工作步骤是： quarter.Produce的文章是每个季度文章的频率共生矩阵(函数1)，从这个矩阵中获取我感兴趣的项的列，并将其转换为一个data.frame (功能2)，将每个季度的data.frames合并在一起，然后生成一个大的csv文件，每个季度有一列，每一个共现项都有一行。这似乎没问题。但我想知道，是否有谁在R方面更熟练，可以检查我正在做的是正确的，或可能提出一个更有效的方法来做它？谢谢你的帮助！ #Functi

浏览 1提问于2021-08-12得票数 2

回答已采纳

1回答

阅读r中pdf或文本的语料库

r、tm、corpus

我有一个很大的文件清单，我想阅读R作为一个语料库。所有的文件都是pdf，但最近，我意识到其中一些文件将是txt。在获得文本文件之前，我只是创建了目录中的pdf文件列表，并使用readerControl的语料库函数读取它们： getwd() files <- list.files(pattern = "pdf$") corp <- Corpus(URISource(files), readerControl = list(reader = readPDF)) 我尝试创建pdfs和txt的组合列表，但我无法找到一种方法来使用readerC

浏览 1提问于2019-06-18得票数 1

回答已采纳

1回答

使用'tm‘包和并行处理清理字幕文件

r、parallel-processing、text-mining、tm

我有150,000个“文件”格式的字幕文件(因为我在从.srt转换时忘记在每个文件的末尾添加.txt )，我想删除所有不是文本的字幕文件，以便执行情感分析。以下是其中一个字幕文件的示例： 1 00:00:14,542 --> 00:00:16,875 <i>Sarah Jane: For a long time,</i> 2 00:00:16,875 --> 00:00:20,542 <i>I'd walk into work convinced they all knew,</i> 3 00:00:20,542 --&g

浏览 0提问于2017-06-23得票数 0

3回答

如何在大型文本语料库中用另一个(成对的)字符串向量进行有效的替换

r、text-mining、gsub、large-data

我有一个字符串矢量中的大型文本语料库(app。700.000个字符串)。我正在尝试替换语料库中的特定单词/短语。也就是说，我有一个app 40.000短语的向量和一个相应的替换向量。我正在寻找一个有效的方法来解决这个问题我可以在for循环中完成，循环遍历每个模式+替换。但它的伸缩性很差(3天左右!) 我也尝试过qdap::mgsub()，但它的伸缩性似乎也很差 txt <- c("this is a random sentence containing bca sk", "another senctence with bc a but also with z

浏览 0提问于2019-03-31得票数 4

2回答

R:在阅读文本中使用quanteda语料库有困难

r、corpus、quanteda

在阅读了我的语料库后，在使用不同的后续语句时，我得到了相同的错误： UseMethod中的错误(“文本”)：对于“c(语料库_帧，‘data.frame’)”类的对象，没有适用的“文本”方法。例如，当使用这个简单的语句：texts(mycorpus)[2]时，我的实际目标是创建一个dfm (它提供了与上面相同的错误消息)。我阅读语料库时有这样的代码： `mycorpus < corpus_frame(readtext("C:/Users/renswilderom/Documents/Stuff Im working on at the moment/Newspape

浏览 6提问于2017-10-10得票数 1

回答已采纳

1回答

文件数

python、path、count、operating-system

我有一个语料库，我需要计算整个语料库中的文档和标记的数量，以及它的子部分。到目前为止，我开发的代码如下所示： def gather_data(path): words = 0 articles = 0 for root, dirs, files in os.walk(path): for f in files: if not f.endswith('_metadata.txt') and f.endswith('.txt'): articles += 1

浏览 3提问于2015-01-22得票数 2

回答已采纳

1回答

R quanteda库，创建语料库时出错

r、corpus、quanteda

我有一个奇怪的错误，只有在我的同事RStudio运行代码时才会发生。代码处理的是文本语料库，这就是我要做的： ap.corpus <- corpus(raw.data$text) ap.corpus #Corpus consisting of 214,226 documents and 0 docvars. ap.corpus <- Corpus(VectorSource(ap.corpus)) ap.corpus <- tm_map(ap.corpus,tolower) ap.corpus<-corpus(ap.corpus) 最后一步是在我到达模型之前重

浏览 0提问于2018-01-06得票数 0

2回答

R:查找每个术语的频率--警告消息

r、frequency、tm、corpus、term-document-matrix

我试图在马丁·路德·金的“我有一个梦想”演讲中找到每个学期的频率。我已经将所有的大写字母转换为小写，并且我已经删除了所有的停用词。我有一个.txt文件的文本，所以我不能在这里显示它。读入文件的代码如下： speech <- readLines(speech.txt) 然后，我成功地执行了转换为小写和删除停用词，并调用它： clean.speech 现在，我在查找每个学期的频率时遇到了一些问题。我已经创建了一个语料库，检查了语料库，并创建了一个TermDocumentMatrix，如下所示： myCorpus <- Corpus(VectorSource(clean.spee

浏览 0提问于2015-10-20得票数 0

2回答

在我的语料库中实现“全德达错误”

r、text、analytics、n-gram、quanteda

我试图在R的语料库上实现quanteda，但我得到的是： Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 我对此没有多少经验。以下是dataset的下载：以下是代码： tweets = read.csv("TwitterSelfDriveShrink.csv", stringsAsFactors=FALSE) corpus = Corpus(VectorSource(tweets$Tweet)) cor

浏览 1提问于2016-04-14得票数 0

回答已采纳

1回答

STM:如何将元数据从tm转换为stm文档项矩阵？

r、matrix、tm、topic-modeling、text-analysis

我试图在使用stm包编写的文档项矩阵上运行结构化主题模型(使用tm包)。我在tm包中构建了一个包含以下元数据的语料库： library(tm) myReader2 <- readTabular(mapping=list(content="text", id="id", sentiment = "sentiment")) text_corpus2 <- VCorpus(DataframeSource(bin_stm_df), readerControl = list(reader = myReader2)) meta(text_c

浏览 5提问于2017-12-05得票数 2

回答已采纳

1回答

如何在不丢失观察值或变量的情况下导出textstat_simil文档？

r、cosine-similarity、quanteda、dfm

我是quanteda的新手，在导出文档时遇到问题。我正在比较两个文档，" dfm_latam“和"dfm_cosines"，前者包含超过27k的观察值，后者由两个语料库组成，其中的文本将与dfm_latam数据库的27k观察值中的每一个进行比较。 corpus_cosine_2 <- corpus(cosine_2_pdf) corpus_cosines <- corpus_cosine_1 + corpus_cosine_2 dfm_cosines <- dfm(corpus_cosines, case_insensitive = TRUE)

浏览 5提问于2021-10-29得票数 0

1回答

R:使用grep和tm包的部分匹配字典术语

r、dictionary、text-mining、tm

嗨:我有一本别人写的否定词词典。我不知道他们是怎么做的，但看起来他们用的不是波特·斯特默。字典中有一个通配符(*)，我认为它应该能使词干发生。但是我不知道如何在R上下文中使用grep()或tm包，所以我去掉了它，希望找到一种方法来实现grep的部分匹配。原来的字典是这样的 #load libraries library(tm) #sample dictionary terms for polarize and outlaw negative<-c('polariz*', 'outlaw*') #strip out wildcard negative<

浏览 11提问于2016-05-06得票数 1

回答已采纳

3回答

如何在使用或不使用文档术语矩阵的情况下统计术语频率数据？

r、nlp、nltk、text-processing、text-analysis

我正在尝试将以下数据列表：输入 Big Fat Apple 3 Small Fat Apple 2 Little Small Pear 1 预期输出： Big = 3 Fat = 3+2=5 Apple = 3+2=5 Small = 2+1=3 Little = 1 Pear = 1 我试图让文档术语矩阵将其作为语料库处理，但我找不到一种方法来使"Big Fat Apple“真正出现在语料库中："Big Fat Apple Big Fat Apple Big Fat Apple”。有没有什么方法可以做这样的列表呢？理想情况下，我希

浏览 0提问于2015-04-22得票数 2

1回答

使用全德达的清洁语料库

r、nlp、quanteda

使用tm(小写，删除点，删除数字，词干词)清洗语料库的方法是什么，如下面的示例所示？明确地说，我不想用dfm()创建文档特性矩阵，我只想要一个干净的语料库，可以用于特定的下游任务。 # This is what I want to do in quanteda library("tm") data("crude") crude <- tm_map(crude, content_transformer(tolower)) crude <- tm_map(crude, removePunctuation) crude <- tm_map(crude

浏览 2提问于2020-08-04得票数 0

回答已采纳

1回答

按非唯一文档变量分组的Quanteda textplot_xray作为文档

r、plot、corpus、lexical、quanteda

我有一个由10个文档组成的Quanteda语料库，其中几个文档出自同一作者之手。我将作者存储在一个单独的docvar列中- myCorpus$documents[,"author"] > docvars(myCorpus) author 206035 author1 269823 author2 304225 author1 422364 author2 <...snip..> 我在画一张图 textplot_xray( kwic(myCorpus, "ima

浏览 15提问于2018-02-16得票数 1

回答已采纳

1回答

用于POS机的textstat_keyness，而不是words

quanteda、tagged-corpus

Quanteda中的textstat_keyness用于比较两个(子)语料库中单词/LEMMAS的相对频率。但我想要比较的是词性，而不是单词。然后我想画出来。我已经能够使用textstat_keyness来处理单词了，没有问题，使用以下代码： # compare subcorpusA v subcorpusB terms using grouping genre <- ifelse(docvars(corpusAB, "genre") == "group", "group", "group2") dfmat3 <- d

浏览 2提问于2019-10-08得票数 2

1回答

为什么当我申请到quanteda.corba的英国政党宣言语料库时，quanteda的textmodel_wordfish会无限运行？

r、nlp、quanteda

我正在尝试将wordfish应用于quanteda.corda的data_corpus_ukmanifestos，但它似乎从未停止运行。另一方面，当我使用quanteda的wordfish教程中的示例代码时，wordfish在几秒钟内就完成了。这对我来说是个问题吗？这种情况也发生在其他人身上吗？我怎样才能避开这个问题呢？这是我现在拥有的代码。正如我所说，wordfish在爱尔兰预算演讲上运行时只需几秒钟，但在应用于政党宣言时从不停止运行。 ## install/load packages ## install.packages(c("quanteda", "devt

浏览 30提问于2019-04-13得票数 0

1回答

情感分析词典词典

r、quanteda

我正试着在全德达做情感分析，我遇到了一个错误，我无法用2015年词典“情感词典”来解决。字典有四个键:否定、积极、消极(正词前面有否定(用来表达负面情绪)和否定(否定之前有否定，用来表达积极情绪)。当我使用字典时，我无法激活最后两个类别。这是我正在使用的脚本包LexisNexisTools将其转换为一个quanteda语料库。当我尝试这个错误时，我并没有得到任何neg_pos或neg_negative的点击，所以我添加了一个示例句“这种咄咄逼人的政策不会赢得朋友”--从到第一行文档都有一个neg_positive比例表('will not')。这是在第一个dfm中注册的，

浏览 3提问于2020-06-30得票数 0

回答已采纳

1回答

如何从记号中删除以数字开头的单词？

r、text-mining、quanteda

如何从quanteda的记号中删除以数字开头的单词？样本词:21，80，8，5k，但它们可能完全不同，而且我事先不知道它们。我有一个带有英语句子的数据框架。我用quanteda把它转换成语料库。接下来，我将语料库转换为标记，并进行了一些清理，如remove_punct、remove_symbols、remove_numbers等。然而，remove_numbers函数不删除以数字开头的单词。我想删除这些词，但我不知道它们的确切形式--可以是21，22，等等。 library("quanteda") data = data.frame( text = c("R i

浏览 2提问于2020-05-03得票数 1

回答已采纳

2回答

R:将“术语文档矩阵”转换为“语料库”

r、text、nlp、text-mining

我使用的是R编程语言。我正在尝试遵循本教程(https://cran.r-project.org/web/packages/tidytext/vignettes/tidying_casting.html)中的说明，学习如何将“术语文档矩阵”转换为“语料库”。但是，本教程中提供的解释对我来说并不清楚，我也不确定如何做到这一点。使用公开可用的莎士比亚戏剧，我创建了术语文档矩阵，如下所示： #load libraries library(dplyr) library(pdftools) library(tidytext) library(textrank) library(tm) #1st d

浏览 25提问于2021-05-05得票数 0

1回答

R:从语料库中移除标签

r、regex、tags、corpus、quanteda

我正在使用quanteda软件包处理一些文本。我的文本中包含标签，其中有些具有独特的价值，比如URL。我不仅要删除标签，而且要删除标签中的所有内容。示例： <oa> </oa> <URL: http://in.answers.yahoo.com/question/index;_ylt=Ap2wvXm2aeRQKHO.HeDgTfneQHRG;_ylv=3?qid=1006042400700> <q> <ad> </ad> 我不知道如何在使用quanteda包时删除它们。在我看来，dfm函数将是使用它的地方，我不认为sto

浏览 1提问于2019-03-29得票数 1

回答已采纳

3回答

如何从R中的文本中提取ngram(报纸文章)

r、quanteda

我是R的新手，使用R中的包创建了一个报纸文章语料库。由此，我创建了一个dfm dfmatrix <- dfm(corpus, remove = stopwords("english"),stem = TRUE, remove_punct=TRUE, remove_numbers = FALSE) 我正在尝试提取二元语法(例如，“气候变化”，“全球变暖”)，但当我键入以下内容时，总是收到错误消息，说ngram参数没有使用。 dfmatrix <- dfm(corpus, remove = stopwords("english"),stem = TRU

浏览 3提问于2020-06-05得票数 2

1回答