使用R中的'tm‘库向VectorSource语料库添加元数据_如何使用R中的‘tm’包设置语料库中术语的TF权重 - 腾讯云开发者社区

nlp、text-mining、tm、corpus

我有一个csv文件，我正在尝试将它转换为语料库，以便稍后使用tm_map并应用一些聚类。我看了文件 data <- read.csv("data.csv", header = TRUE, sep = ",",stringsAsFactors = FALSE) 把我需要的东西变成语料库 corp<- Corpus(VectorSource(data$text)) 这是元数据的结果 > meta(

浏览 40提问于2019-09-21得票数 0

回答已采纳

1回答

在tm 0.7.3中合并语料库

r、version、text-mining、backwards-compatibility

使用针对R的文本挖掘包tm，在版本0.6.2，RVersion3.4.3中工作如下：a = "This is the first document."Error in UseMethod("inspect", x) : no applicable method for

浏览 4提问于2018-01-12得票数 0

回答已采纳

1回答

在R中使用tm包创建TermDocumentMatrix时出错

r、text-mining、tm

我无法使用R中的tm包创建一个术语文档矩阵，当我试图从预处理的语料库中创建一个时，这会引发以下错误。: "character" 下面是我正在使用的脚本我使用Rv3.4.1和tm软件包v

浏览 5提问于2017-10-26得票数 0

回答已采纳

1回答

tm包版本0.7不能在DocumentTermMatrix中保留单词内连字符

在版本0.6-2和0.7-x之间，tm包的行为发生了变化。在新版本中，DocumentTermMatrix不保留单词内破折号，这是一个错误还是有一个新的选项来强制执行？下面是一个示例，使用安装了不同路径的两个tm版本。我运行的是R 3.3.3。", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3/tm</em

浏览 1提问于2018-01-02得票数 0

1回答

R-情感分析-如何删除某些单词

r、twitter、gsub、sentiment-analysis

我有下面的代码来为我的Twitter情感分析创建干净的文本。我想要添加另一行，以删除某些我不想在这个分析中包括的单词，如“废话”，“病”，等等。有人能建议如何做到这一点吗？

浏览 2提问于2016-04-09得票数 2

1回答

语料库对象缺少文本

r、text-mining、tm、corpus

在R中使用'tm‘库。在应用此代码时： abstract <- VectorSource(data$Abstract) 它是有效的，并给出了如下结果： [1] Accurate text... [2] Accurate text然后，我将其转换为一个语料库对象，这样我就可以对其进行进一步的聚类分析。abstract <- tm::Corpus(tm::VectorSource(

浏览 17提问于2019-09-10得票数 0

回答已采纳

2回答

将文档列表转换为语料库

r、text-mining、tm

我正在做以下关于文本挖掘的教程：在某个时刻，文档列表被转换为语料库：doc.corpus<- Corpus(doc.vec) 有没有人能用简单的英语给我解释一下(举个例子更好)这里到底发生了什么？

浏览 6提问于2015-08-07得票数 1

1回答

tm在应用tm_map时丢失元数据

r、metadata、tm

我对tm r库有一个(小)问题。说我有一个语料库：bcorp <- c("one","two","three","four","five")# this does not work myCorpus <- Corpu

浏览 2提问于2014-09-03得票数 3

回答已采纳

1回答

如何将文本文件上传到R中的命令"wordcloud“

r、word-cloud

我想在R-Studio中使用文本文件中的数据绘制一个单词云，但遇到了一些问题。如何使用“语料库”命令上传此文本文件使其可读？下面的" text“是一个包含名为"Twitter_text”的文本文件的文件夹。这是我的R代码：>inspect(FA) >FA <- tm_m

浏览 1提问于2016-05-16得票数 1

2回答

将语料库从quanteda转换为tm

r、tm、corpus、quanteda

我的数据mycorpus是在一个quanteda语料库(corpus-function从quanteda)中，我需要将它转换为tm包下的语料库。我知道quanteda的convert-function。不过，这只会将文档功能矩阵转换为tm。我错过了什么快速的解决办法吗？tm的VCorpus(mycorpus)抛出错误消息“缺少源”

浏览 8提问于2021-07-21得票数 1

回答已采纳

1回答

R-从更大的语料库中删除语料库词集，以找到唯一的单词

r、corpus、text-analysis、word-cloud

我有两个语料库(我把它们转换成DocumentTermMatrices，数据帧，然后是词云)，其中一个是另一个的子集。准确地说，一个是关于一所大学的文本语料库，另一个是关于该会议中所有大学的文本语料库。> SECDraft = read.

浏览 2提问于2015-05-29得票数 2

1回答

DocumentTermMatrix使用字典时计数错误

r、twitter、tm、corpus

实际上，我正在尝试使用朴素贝叶斯算法基于twitter数据进行情感分析。myCorpus.test <- Corpus(VectorSource(myCorpus.test$content)) 因此，我得到了NB算法的训练和测试语料库。在这样做之后，我想创建两个基于术语的DTM，这些术语在火车语料库中至少出现了50次。DTM基于上面选择的项，但是矩阵本身

浏览 0提问于2017-04-10得票数 2

1回答

文本挖掘.如何构建术语文档矩阵

r、tm

我要做的是加载一个csv文件，并转换成一个术语文档矩阵。下面是我代码的一部分：TermDocumentMatrix(myCorpuslist(wordLengths=c(1,Inf))) 但是得到一条错误消息：Error in UseMethod("TermDocumentMatrix"，x)：没有适用于"data.frame"类对象的“

浏览 2提问于2013-12-12得票数 2

回答已采纳

2回答

tm_map是R中的误差

r、tm

is.na(TweetList)])TweetCorpus <- iconv(TweetCorpus,<- tm_map(TweetCorpus, removeNumbers)我在UseMethod("tm_map"，x)中得到了这个错误:在我的最后3行<em

浏览 4提问于2017-05-25得票数 0

回答已采纳

6回答

R包vcorpus:将语料库转换为数据帧时出错

r、tm、corpus

我使用tm包来使用以下代码清理一些数据：mycorpus <- tm_map(mycorpus, removePunctuation)dataframe <- as.data.frame(

浏览 7提问于2014-07-11得票数 17

回答已采纳

1回答

在R包中包含术语文档矩阵中的所有标记

r、tm、term-document-matrix

我试图用R中TermDocumentMatrix包的tm函数构造一个术语文档矩阵，发现有些词不包括在内。> library(tm)>如果语料库只包含已删除的单词，则会给出以下消息。，以及如何将所有的标记都包含在语料库<e

浏览 1提问于2014-01-31得票数 0

回答已采纳

1回答

tm包中语料库中的子串

r、substring、tm

我已经使用以下命令创建了一个语料库：corpus_map <- tm_map(corpus_map, removeNumbers) 上面的命令从语料库中删除数字。有没有什么命令可以让我对语料库中的所有单词进行子串？例如："Travelling“应转换为#为3个字母的</e

浏览 2提问于2016-11-10得票数 0

3回答

tm语料库联合列表

r、list、tm

我有一个URL列表，其中我获取了and内容，并将其包含在tm语料库中：library(XML) "http://www.r-statistics.commeta(cc,"link")=url.name} cc <- lapply(link, create.corpus) 这给了我一个“大清单”的语料库wi

浏览 4提问于2014-01-07得票数 6

回答已采纳

2回答

R-比较两个语料库，使用语料库#1中出现频率较高的单词创建新语料库

r、corpus、text-analysis、word-cloud、term-document-matrix

我有两个包含相似单词的语料库。与此相似的是，使用setdiff对我的事业没有真正的帮助。因此，我转向了寻找一种方法来提取更频繁的单词的列表或语料库(最终形成一个单词云)(假设这样的事情会有一个阈值-所以可能会增加50%的频率？)在语料库1中，与语料库2相比。RColorBrewer) > UKDraft = read.csv("UKDraftSc

浏览 10提问于2015-05-30得票数 2

2回答

文本挖掘中TDM CSV文件转换为语料库格式

r、text、text-mining

我在R中使用tm包进行文本挖掘，我执行了以下步骤：dataorg <- read.csv("Report_2014.csv")cleanset <- tm_map(cleanset, tolower) cle

浏览 1提问于2014-01-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云