尝试在R中创建文档术语矩阵时出错

文章/答案/技术大牛

发布

1回答

、

我有以下代码，但在尝试创建文档术语矩阵时出现错误：(最初，我将数据放在csv文件中，只有一列，并使用read.csv，但为了便于复制，我在下面创建了一个数据框)TEXTS<-

浏览 19提问于2016-08-03得票数 0

1回答

在R中构造一个项-项共现矩阵？

、、

我想从这个语料库创建一个术语-术语共现矩阵。但是我想使用滑动窗口的概念(一个固定大小的窗口)。我将在R环境中使用此矩阵(作为文本矩阵格式)，因此该矩阵必须为R格式或可转换为R格式。

浏览 0提问于2015-04-12得票数 1

1回答

创建双文法的术语文档矩阵？

、、、、

我能够创建TDM和DTM，并且能够使用TDF和IDF执行我的分析。但是我们能为R中的Bi创建一个术语文档矩阵或文档术语矩阵吗？我知道在Mahout中也有类似的功能，但我正在寻找一种在R中这样做的方法？

浏览 1提问于2014-05-14得票数 0

1回答

如何使用tm从R中的DocumentTermMatrix中选择命名列

、

我编写了代码，使用“tm”包在R中生成文档术语矩阵。现在，我必须只为选定的命名列选择矩阵中的频率值。因此，我想根据一个术语列表来子集这个矩阵。如果任何术语(如术语= c('medium‘、'high’、‘low’)在文档术语矩阵中作为列出现，我只希望这些列出现在输出矩阵中

浏览 2提问于2015-03-30得票数 1

回答已采纳

2回答

使用R-lsa包计算语义空间中文档之间的余弦相似度

、、、、

我正在尝试使用R语言对类似的文档进行聚类。作为第一步，我为我的文档集计算术语-文档矩阵。然后，为之前创建的术语-文档矩阵创建潜在语义空间。我决定在实验中使用LSA，因为仅使用术语文档矩阵进行聚类的结果非常糟糕。是否可以使用创建的LSA空间构建相异矩阵(使用余弦度量)？我需要这样做，因为我使用的

浏览 3提问于2013-03-06得票数 2

5回答

tm包错误“无法将DocumentTermMatrix转换为正常矩阵，因为向量太大”

、

我已经创建了一个包含1859个文档(行)和25722个文档(列)的DocumentTermMatrix。为了对这个矩阵进行进一步的计算，我需要将它转换成一个常规的矩阵。allozieren # cannot allocate vector of size 364.8 MB5502000 bytes 由于某些原因，每当将对象转换为常规矩阵时或者，有没有在DocumentTermMatrix上执行常规矩

浏览 1提问于2011-09-12得票数 5

1回答

DTM矩阵中的词丢失

、、、

在R中创建文档术语矩阵时，我无法提取一些重要的单词。我甚至尝试删除语料库上的所有过滤器，即在原始文件上尝试dtm，但我仍然无法捕获它。请帮帮忙。在这里，我无法在我的DTM矩阵中捕获DC。

浏览 1提问于2018-03-23得票数 0

1回答

R中的余弦相似矩阵

、、

我有一个文档术语矩阵"mydtm“，它是我使用'tm‘包在R中创建的。我试图描述dtm/语料库中包含的557个文档中的每个文档之间的相似性。我一直在尝试使用余弦相似度矩阵: mydtm_cosine <- dist(mydtm_matrix，method = " cosine "，diag = F，upper

浏览 23提问于2021-06-03得票数 0

1回答

R和数据挖掘没有足够的内存？

、

我使用R进行数据挖掘，问题是我将它与elasticsearch连接起来，并检索莎士比亚完整作品的数据集。在此之后，我想做一个tf_idf矩阵，但显然我不能这样做，因为它占用了太多内存(我有4GB内存)，下面是我的代码：myCorpus <- Corpus(VectorSource数据集的R值太高了吗？

浏览 6提问于2015-07-09得票数 1

回答已采纳

3回答

文本挖掘:获取句子-术语矩阵

、

我目前在寻找任何与使用文本挖掘在R中创建句子术语矩阵相关的内容时遇到了麻烦。我只使用了一个excel文件，其中我只对文本挖掘感兴趣。我想创建一个行(句子)-术语矩阵。我想创建一个矩阵，告诉我每行(句子)中单词的频率。我想创建一个由1和0组成的矩阵，

浏览 0提问于2017-10-24得票数 0

1回答

在R中比较文档术语矩阵中的文档术语

、、、、

我需要通过比较文档的术语来构建相似度矩阵。例如，如果Document1和Document2有两个相同的术语，我需要在我的m1，2的相似度矩阵中写一个2。我的相似度矩阵现在是这样的：[1,] 0 NA NA NA NA NA[7,] 0 0 0 0 0 0 0 NA NA [8,] 0

浏览 5提问于2013-01-15得票数 1

回答已采纳

1回答

在创建TermDocument矩阵后，无法在中看到单个数字/字母作为术语

、、、

我在R中使用了TermDocument矩阵，文档(字符串)也包括单字母单词。使用TermDocument矩阵后，术语不包括那些单字母单词，请建议我应该包括哪个控件作为输入参数，以便在术语文档矩阵中包括单字母单词。

浏览 11提问于2017-03-12得票数 1

回答已采纳

1回答

如何将PCA应用于R中的术语文档矩阵？

、、

如何将PCA应用于R中的术语文档矩阵？我有一个文档，我在术语文档矩阵上应用了PCA，但所有的pc组件都是零。我想知道这是否是执行PCA分析的正确方法。

浏览 0提问于2016-05-03得票数 0

1回答

如何在R中找到文档频率？

、

我需要帮助在R中创建一个程序来查找：-The索引器处理的文档的最小数量是4。-Extract每个文档中的所有术语构建矩阵包含每个文档中的术语频率(要打印)。-print每个术语和它的DF (文档频率)analyze <- function(fi

浏览 0提问于2019-04-21得票数 0

2回答

将TermDocumentMatrix导入R

、、

我正在做R的tm包中的一个定性分析项目。我已经建立了一个语料库，并创建了一个术语文档矩阵和长篇大论简而言之，我需要编辑我的术语文档矩阵，并合并它的一些行。为此，我使用以下命令将其导出到R之外然后，我将csv文件重新导入到R中，但我正在努力弄清楚如何让R将其读取为TermDocumentMatrix或DocumentTermMatrix我<

浏览 16提问于2016-05-19得票数 2

1回答

距离矩阵计算在R中耗时太长

、

我在R中有一个术语文档矩阵(tdm) (从大约16,000个文本的语料库中创建)，我正在尝试创建一个距离矩阵，但它没有加载，并且我不确定它应该花多长时间(它已经超过20分钟)。我还尝试使用文档术语矩阵格式创建距离矩阵，但仍然无法加载。有什么我可以做的来加速这个过程吗？对于tdm，行是文本文档，

浏览 20提问于2016-08-06得票数 0

回答已采纳

2回答

项-项共现矩阵上的K-均值聚类

、、、

我从R中的文档-术语矩阵导出术语-术语共现矩阵K。我感兴趣的是对逐个关键字的矩阵K进行K均值聚类分析。K的维度是8962术语×8962术语。and cost together, write to df我最初的文档-术语矩阵

浏览 0提问于2016-05-03得票数 0

1回答

在R中创建文档频率矩阵

、

我试图在R中创建一个文档频率矩阵。我现在有一个dataframe (df_2)，它由2列组成：我一直试图使用tm包创建这个dfm。我尝试创建一个语料库(向量源)，然后尝试使用

浏览 2提问于2020-03-21得票数 0

1回答

从字典创建文档-术语矩阵

、、、

我正在尝试预处理一个文本文件，其中每一行都是一个文档的二元文法单词，以及它们在该文档中的出现频率。下面是每行的一个示例：我设法从整个语料库中创建了字典。现在我想逐行阅读语料库，并拥有字典，创建文档-术语矩阵，以便矩阵中的每个元素(i，j)将是文档"i“中</

浏览 0提问于2012-06-05得票数 0

回答已采纳

1回答

如何在Weka中更改max属性？

、、

我使用Weka使用类StringToWordVector.创建一个术语文档矩阵但是，无论输入语料库的大小如何，当我使用R tm包时，我只能在输出中看到500个术语/“num属性”，而相同的语料库正在生成549个术语。我尝试更改wordsToKeep设置，但这并不影响生成的术语总数。在我看来，似乎有一些默认设置，我需要修改，以增加生成的条款。但是，我没有找到这样的配置。

浏览 5提问于2014-09-05得票数 0

回答已采纳

点击加载更多