在R中按频率排列文档术语矩阵中的单词

、

很抱歉有新的问题，但我是文本挖掘的新手，需要一些建议。现在，在经历了content_transformer的长期折磨之后，我有了干净的语料库来回答下一个问题例如，我需要这样的格式x 0,5% of all words in the datasetz 0,3% 那么这里总频率</em

浏览 2提问于2017-02-10得票数 0

3回答

文本挖掘:获取句子-术语矩阵

、

我目前在寻找任何与使用文本挖掘在R中创建句子术语矩阵相关的内容时遇到了麻烦。我只使用了一个excel文件，其中我只对文本挖掘感兴趣。我想创建一个行(句子)-术语矩阵。我想创建一个矩阵，告诉我每行(句子)中单词的频率。我想创建一个由1和0组成的<em

浏览 0提问于2017-10-24得票数 0

1回答

从术语文档矩阵关联

、、、

除了在r中使用findAssoc()之外，有没有一种方法可以从术语文档矩阵中找到相关的单词。我的目标是找到所有具有确定频率的单词(假设我想找到频率大于200的所有单词)，然后找到与这些单词一起出现的单词。

浏览 2提问于2016-08-17得票数 1

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

、、、

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词填充了他们的TF和TF-IDF分数。在我目前的大部分分析中，我一直在</

浏览 3提问于2019-07-11得票数 0

1回答

查找语料库中单个文档的特定单词频率- R，TermDocumentMatrix，TM

、、、、

对于我正在从事的一个研究项目，我已经将pdf文档读入R，创建了一个语料库和一个TermDocumentMatrix。我想要检查语料库中每个文档中特定单词的出现频率。下面的代码给了我想要的矩阵类型，以及文档中单词的频率，但显然它只提供高频术语，而不是特定的术语

浏览 20提问于2020-07-08得票数 0

回答已采纳

1回答

从字典创建文档-术语矩阵

、、、

我正在尝试预处理一个文本文件，其中每一行都是一个文档的二元文法单词，以及它们在该文档中的出现频率。下面是每行的一个示例：我设法从整个语料库中创建了字典。现在我想逐行阅读语料库，并拥有字典，创建文档-术语矩阵，以便矩阵中的每个元素(i，j)将

浏览 0提问于2012-06-05得票数 0

回答已采纳

1回答

如何使用tm从R中的DocumentTermMatrix中选择命名列

、

我编写了代码，使用“tm”包在R中生成文档术语矩阵。现在，我必须只为选定的命名列选择矩阵中的频率值。因此，我想根据一个术语列表来子集这个矩阵。如果任何术语(如术语= c('medium‘、'high’、‘low’)在文档术语矩阵中作为列出现，我只希望这些

浏览 2提问于2015-03-30得票数 1

回答已采纳

1回答

来自多个文件的Python矩阵

、、、

如何将多个TXT文件中的逐行频率分布转换为一个矩阵？每个文件具有完全相同的结构，因为所有的单词/术语/短语都是按照相同的顺序排列的，并且包含在每个文件中。每个文件的唯一是文件名、发布日期和由":“之后的数字给出的单词/术语/短语的相应频

浏览 2提问于2015-02-11得票数 1

回答已采纳

1回答

我在一个文本语料库上执行了硬聚类(使用tf-idf权重)，并获得了~= 200聚类。如果我想获取每个集群的topic，我该怎么做？我已经尝试在原始文本语料库(预聚类)上使用LDA，并获得了许多主题，但是我不确定如何将这些主题映射到我现有的每个聚类上。有没有其他方法可以推荐LDA，或者LDA是正确的方法，我该如何继续呢？在线材料只展示了如何将lda主题映射到文档句子上，而不是预先存在的聚类。如果我这样做，并根据它们分配的主题对这些句子进行分割，我将得到与原始聚类不同<em

浏览 38提问于2019-12-16得票数 1

回答已采纳

1回答

在创建TermDocument矩阵后，无法在中看到单个数字/字母作为术语

、、、

我在R中使用了TermDocument矩阵，文档(字符串)也包括单字母单词。使用TermDocument矩阵后，术语不包括那些单字母单词，请建议我应该包括哪个控件作为输入参数，以便在术语文档矩阵中包括单字母单词。

浏览 11提问于2017-03-12得票数 1

回答已采纳

1回答

当文本中的单词不经常重复时，如何为文本分类准备特征向量？

、、、、

但是，我的文本中的所有单词都是稀疏的，即每个单词相对于所有文档的频率都很低。话不常重复。由于对于分类器的训练，我认为用频率加权的文档术语矩阵是不合适的。你能给我建议一下我需要使用的其他方法吗？谢谢

浏览 2提问于2016-03-21得票数 0

回答已采纳

1回答

nlp多标签分类tf vs tfidf

、、、、

我有大量的文档，这些文档应该分为29个类别。我解决这个问题的方法是，在清理文本、停止单词删除、标记化等之后，执行以下操作：为了创建特征矩阵，我查看了每个文档中术语的频率分布，然后创建了这些术语的表(其中删除了重复的术语)，然后计算了每个单词在其相应文本中的

浏览 29提问于2019-02-12得票数 4

回答已采纳

1回答

tm R包中到DocumentTermMatrix的词频表

、、、

我正在使用R中的tm包进行一些文本挖掘。我有一个术语频率矩阵，其中每一行都是文档，每一列都是一个单词，每个单元格都是单词的频率。我正在尝试将其转换为DocumentTermTermMatrix对象。我似乎找不到处理这个问题的函数。看起来资料来源通常是文件。我尝试过as.DocumentTermTermMatrix()，但它要求使用一个参数“加权”，并给出以下错误： .TermDo

浏览 1提问于2015-10-17得票数 1

回答已采纳

1回答

将数据转换为术语-文档-矩阵

、、

我目前正在学习如何绕过R，我被以下问题困扰着：word freq1 freq2 this它显示了单词在文本1 (freq1)和文本2 (freq2)中使用的频率。是否有可能将其转换为术语文档矩阵？我需要它是一个术语文档矩阵来应用以下功能co

浏览 0提问于2019-01-23得票数 0

回答已采纳

1回答

列表中单词的二进制分类器

、、

我使用OCR从一些瑞典文的程式化文档中提取了文本。现在我要将数据正规化并提取城市名称。由于OCR工作不完美，名字有时拼错了，出现在文本中的半随机位置。因此regex不起作用。这是一个很好的过程/有可能将文本转换成一袋袋的单词，并训练出一种将单词二进制位为城市而不是城市的算法？这是一个好的程序，还是我应该使用另一种方法？

浏览 3提问于2020-02-17得票数 0

回答已采纳

2回答

在R中绘制网格中的单词云

、、

我正在使用一个wordcloud2包来创建单词云，但似乎找不到一种在网格中绘制它们的方法。我已经尝试过grid.arrange，但它产生了一个错误，并且不允许我绘制云图？以下是我的代码w1 <- wordcloud2(w_virgin, size = 0.8, shape = 'circle',

浏览 6提问于2018-03-29得票数 1

1回答

R中文本的多类分类

、、、、

模型的准确度为75 %。有6个标签，但是在6个类别中，只有3个是分类的，其余的不是分类的。如果有人能告诉我出了什么问题，我会非常感激的。停止和转换为更低的情况。构建文档术语矩阵(dtm)。

浏览 2提问于2018-01-03得票数 2

1回答

lucene是如何构建VSM的？

、、、、

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。据我所知，VSM是一个矩阵，每个术语的TFIDF值都被填充。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先构建的VSM，查找最相似的文档(基本

浏览 7提问于2014-02-14得票数 1

回答已采纳

1回答

如何计算术语文档矩阵？

、、、

我知道，术语文档矩阵是一个数学矩阵，它描述了在一组文档中出现术语的频率。在文档项矩阵中，行对应于集合中的文档，列对应于术语。我正在使用sklearn的CountVectorizer从字符串(文本文件)中提取特性，以简化我的任务。下面的代码根据返回一个

浏览 0提问于2017-04-01得票数 4

回答已采纳

1回答

如何使用Scikit学习在语料库中获取单词/术语频率？

、

我有一个文档的语料库，我想提取每个文档中的单词频率。我可以使用CountVectorizer()来获取每个文档的术语计数，我也可以使用TfidfVectorizer()获取术语频率--反向文档频率，但这两种方法似乎都不能单独给出术语频率。我如何获得术语频率？这个似乎问我<e

浏览 4提问于2021-06-08得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

文本挖掘:获取句子-术语矩阵

从术语文档矩阵关联

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

查找语料库中单个文档的特定单词频率- R，TermDocumentMatrix，TM

从字典创建文档-术语矩阵

如何使用tm从R中的DocumentTermMatrix中选择命名列

来自多个文件的Python矩阵

如何从已有的文本聚类中提取主题？

在创建TermDocument矩阵后，无法在中看到单个数字/字母作为术语

当文本中的单词不经常重复时，如何为文本分类准备特征向量？

nlp多标签分类tf vs tfidf

tm R包中到DocumentTermMatrix的词频表

将数据转换为术语-文档-矩阵

列表中单词的二进制分类器

在R中绘制网格中的单词云

R中文本的多类分类

lucene是如何构建VSM的？

如何计算术语文档矩阵？

如何使用Scikit学习在语料库中获取单词/术语频率？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐