使用tm包强制创建术语

、、、

因此，当我使用tm包创建TDM时，诸如10k和100k之类的术语被分别提取出来。但是，5k和7.5k不是作为单独的术语提取的。现在，我知道在标点符号更正后，"7.5k“可能属于"75k”术语，但"5k“到底是怎么回事。为什么不将其提取为一个术语？基本上，我想知道是否有办法强制tm包查找特定的单词并将其提取为关键术语。

浏览 1提问于2017-01-20得票数 0

1回答

如何在R中通过tm包将TDM csv文件转换为Term Docment Matrix？

、、、

我在csv文件中有术语文档矩阵。0, 0 ……但是我已经有了术语文档矩阵，我想在tm包中导入并使用它。请告诉我方法。

浏览 6提问于2014-03-19得票数 0

6回答

是否从R主题模型中的DocumentTermMatrix中删除空文档？

、、、

我正在使用R中的topicmodels包进行主题建模，我正在创建一个语料库对象，执行一些基本的预处理，然后创建一个DocumentTermMatrix：corpus <- tm_map(corpus, tolower)c

浏览 1提问于2012-12-19得票数 42

回答已采纳

1回答

tf:r中的idf文本分析

、、、

使用休眠代码，我尝试找到csv(200.000个文档)中所有文档的每个术语的tfidf，然后我想创建一个单列csv，它将包含每个术语的tfidf，并且是非递减的。我尝试了一个小样本，我认为它是有效的。as.character), stringsAsFactors=FALSE)dd <- Corpus(DataframeSource(x)) # from tm

浏览 0提问于2016-12-19得票数 0

1回答

我目前正在使用tm包进行一些文本挖掘。我希望能够导出我的文档术语矩阵作为一个数据框架，并附上我的语料库元数据(id变量等)。下面是我当前的工作流程：导入数据集cleaningCreate 导入数据集转换为语料库BasicTF-文档术语DTM DTM转换为dataframeExport数据格式与数据库元data。我觉得这个包是绝对有可能的，但是我找不到任何文档。在使用tm创建DTM时，元数据会丢失吗？

浏览 3提问于2020-12-15得票数 0

2回答

文本挖掘中TDM CSV文件转换为语料库格式

、、

我在R中使用tm包进行文本挖掘，我执行了以下步骤：dataorg <- read.csv("Report_2014.csv")cleanset <- tm_map(cleanset, tolower) cleanset <- tm_map(cleanset,removePunct

浏览 1提问于2014-01-07得票数 0

1回答

数一数使用特定单词的次数。

、

我的第一步是对描述中使用最多的单词进行排序。1 1 House expenses 3 3 Office supplies ordered 然后，我想创建一个使用的排名词对于如何快速获得描述中使用最多的单词有什么想法吗？

浏览 0提问于2015-08-06得票数 2

回答已采纳

2回答

在语料库的每个文档中查找最频繁的术语

、、、

我一直在使用R的tm软件包，在分类问题上取得了很大的成功。我知道如何在整个语料库中找到最频繁的术语(使用findFreqTerms())，但是在文档中看不到在语料库中的每个文档中找到最频繁的术语(在我终止和删除终止词之后，但在删除稀疏术语之前)。我尝试使用apply()和max命令，但这给出了每个文档中术语发生的最大次数，而不是术语本身的名称。library(tm) data("crud

浏览 4提问于2013-11-04得票数 3

回答已采纳

1回答

在R中使用tm包创建TermDocumentMatrix时出错

、、

我无法使用R中的tm包创建一个术语文档矩阵，当我试图从预处理的语料库中创建一个时，这会引发以下错误。我使用Rv3.4.1和tm软件包v0.7-1。(data, removePunctuation)data <- tm_map(data, content_transformer<- TermDocumentMa

浏览 5提问于2017-10-26得票数 0

回答已采纳

1回答

缩放和并行处理'tm‘包术语-R studio中的文档矩阵计算？

、、、

我需要一些帮助来更快地计算术语文档矩阵中向量的余弦相似度分数。我有一个字符串矩阵，我需要获得矩阵中每一行字符串之间的单词相似度得分。我正在使用'tm‘包为文本字符串的数据帧的每一行创建一个术语文档矩阵，并使用lsa包来获得字符串中两个单词向量之间的余弦相似度分数。我需要在大约40个不同的数据帧上这样做，所以我在一个数据帧列表上使用lapply，并将该函数应用于每个数据帧。 1)有没有更快的更好的方法？也许用另一个包<

浏览 3提问于2014-07-31得票数 1

2回答

如何只为tm中的TermDocumentMatrix创建选择语料库术语的子集

、、、

我有一个庞大的语料库，而且我只对前面知道的几个术语的外观感兴趣。是否有一种方法可以使用tm包从语料库中创建术语文档矩阵，其中只有我预先指定的术语才会被使用和包含？

浏览 6提问于2014-11-19得票数 2

回答已采纳

2回答

检查相应的术语(词汇)？(英文)文件.使用tm的术语矩阵

、、

嗨，这一定是超级基本的：我使用tm包从一个语料库创建一个文档术语矩阵，所以我的矩阵的列名是我的语料库中术语的索引。有谁能这么好地告诉我如何检查我的语料库中对应于矩阵中这些索引的原始单词吗？

浏览 2提问于2015-09-12得票数 1

回答已采纳

1回答

、

下面是我使用的代码。除移除停止字外，一切都很顺利。# Installinstall.packages("SnowballC") # for text stemmingwordcloud") # word-cloud generator library("tm(d

浏览 1提问于2018-08-26得票数 0

1回答

以更快的方式从大数据中查找单词/短语

我有一个包含有文本的10137行(dataframe命名短语)的dataframe和另一个包含62000个术语(dataframe命名单词)的数据框架，我想在第一个数据帧中使用它，以便在第一个数据帧的文本中发现，如果第二个数据帧不存在或不存在，则第二个单词分别使用0或1。grepl(word, phrases))}))names(df) <- words 然而，如果我在第一行中使用我的初始数据作为解列

浏览 1提问于2017-11-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在R中通过tm包将TDM csv文件转换为Term Docment Matrix？

是否从R主题模型中的DocumentTermMatrix中删除空文档？

tf:r中的idf文本分析

如何使用R中的TM包将语料库元数据附加到dtm数据导出中

文本挖掘中TDM CSV文件转换为语料库格式

数一数使用特定单词的次数。

在语料库的每个文档中查找最频繁的术语

在R中使用tm包创建TermDocumentMatrix时出错

缩放和并行处理'tm‘包术语-R studio中的文档矩阵计算？

如何只为tm中的TermDocumentMatrix创建选择语料库术语的子集

检查相应的术语(词汇)？(英文)文件.使用tm的术语矩阵

在查找字符串中的单词时计算术语文档矩阵。

删除R中过于常见的单词(出现在80%以上的文档中)

如何在Weka中更改max属性？

带训练和测试集的removeSparseTerms

非英语术语文件矩阵

文本挖掘项邻接矩阵

读取大型文本文件(100 MB)

以更快的方式从大数据中查找单词/短语

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐