R:文本挖掘，创建每个文档的单词列表_统计每个议程的页数-r中的文本挖掘_R中的文本挖掘:计算2-3个单词短语 - 腾讯云开发者社区

r、tidyverse、text-mining、tidytext

我正在从一个目录中的多个PDF文件中读取文本。然后，我使用tidytext::unnest_tokens()-function将这些文本拆分为单个单词(标记)。有没有人可以告诉我，如何在test-tibble中添加一个额外的列，其中包含每个单词所来自的文件的名称？

浏览 27提问于2021-08-05得票数 1

回答已采纳

2回答

文本分类问题的特征选择

classification、nlp、text-mining、random-forest

假设我们正在经营一个销售产品的网站。该网站有一个表单，用户可以在那里写任何投诉或问题。为了解决用户问题，我们考虑将问题分类为预定义类，以便了解用户面临的问题类型。任何建议都会有很大帮助的谢谢

浏览 0提问于2018-07-19得票数 0

回答已采纳

3回答

如何在R中找出语料库中的所有大写单词

r、text-mining

所以，我有一个文档语料库，我需要在R中的所有文档中找到所有都是大写的单词(即，单词中的每个字符都是大写的)。我不确定如何找到它。我看过R中的文本挖掘'tm‘包，没有这样的函数可以找到它。

浏览 3提问于2016-09-14得票数 1

6回答

R文本文件和用于加载数据的文本mining...how

r、load、text-mining、tm

我正在使用R包tm，我想做一些文本挖掘。这是一个文档，并被视为一袋单词。假设这是我的文档"this is a test for R load“ 如何加载用于文本

浏览 0提问于2011-10-28得票数 16

3回答

文本挖掘:获取句子-术语矩阵

r、text-mining

我目前在寻找任何与使用文本挖掘在R中创建句子术语矩阵相关的内容时遇到了麻烦。我只使用了一个excel文件，其中我只对文本挖掘感兴趣。我想创建一个行(句子)-术语矩阵。我想创建一个矩阵，告诉我每行(句子)中单词的频率。我想创建一个由1和0组成的矩阵，以便稍后对其运行PCA分析。在我<e

浏览 0提问于2017-10-24得票数 0

1回答

文本挖掘如何将文档分割成短语而不是术语

r、text-mining、n-gram、term-document-matrix、quanteda

在使用R进行文本挖掘时，在对文本数据进行再处理后，需要创建一个文档项矩阵，以供进一步探索。但与汉语类似，英语也有一定的阶段，如“语义距离”、“机器学习”，如果把它们分割成词，就会有完全不同的意思，我想知道如何将文档分割成阶段，而不是单词(术语)。

浏览 2提问于2016-04-18得票数 3

1回答

计算文档中单词模式的频率

nlp、text-mining

我正在尝试计算文档中单词模式的频率。例如，单词模式“自然语言处理”在文档中出现了多少次。我尝试使用TF-IDF和Bag of words。然而，它给了我每个单词单独的频率。有没有办法使用NLP，文本挖掘来解决这个问题？提前感谢

浏览 0提问于2021-04-21得票数 0

2回答

.txt文件中的问题

r、text、error-handling、package、edgar

预先感谢您的投入。我的问题是edgar包的getSentimentCount(word.frq, words.list)函数。函数应该读取作为word.list文件的.txt，并比较另一个现有列表(word.frq) (也是.txt文件)的内容。对于一个单词之间没有空格的.txt文件来说，这很好，但是R仍然可以像读取文件一样读取文件(计数> 1)。如果在每个单词后面有一个新行，则可以读取另一

浏览 1提问于2017-08-31得票数 0

回答已采纳

2回答

为R中的行名创建(数字)前缀

r、matrix

我正在尝试为R中的行名创建数字前缀。请参阅png 我需要的格式使用程序"wordfish“(文本挖掘)。我能够创建矩阵，可以在下面的链接中看到，但无法在每个单词前面添加数字计数，以及在数字和单词本身周围分配引号。不幸的是， write.tabl

浏览 2提问于2017-04-20得票数 0

1回答

如何在使用python文本挖掘模块构建文本文档矩阵时保留连字符？

python、text-mining

我有下面的代码，它将一段文本与一个停用词集合进行比较，并返回文本中不在停用词集中的单词列表。然后，我将单词列表更改为字符串，以便可以在文本挖掘模块中使用它来创建术语文档矩阵。我在代码中进行了检查，这些检查显示在列表和字符串中保留了连字符的单词，但是一旦我通过代码的TDM部分传递它们，连字符的单词</em

浏览 3提问于2015-05-03得票数 0

1回答

删除R中列表列表中的空字符串

r、list

我目前正在做一个R语言的文本挖掘项目，有一个列表列表。我想删除列表列表中的所有空字符串和NA值，但我还没有找到方法。我的数据如下所示： x <- list(c("", "alteryx", "confirme", "", "", "", "ans", ""

浏览 47提问于2019-11-21得票数 3

回答已采纳

3回答

如何从句子中分离出单词和平均值？使用R进行文本挖掘

r、text、machine-learning、text-mining、text-analysis

我有数百个电子邮件主题行的列表。对于每个主题行，我都有电子邮件打开率(打开的电子邮件/已发送的电子邮件)值。例如：如果我正确理解了逻辑步骤，我需要建立电子邮件主题行中的所有单词的列表，并为每个单词在所有主题行之间做平均。例如：有没有人能

浏览 4提问于2016-05-17得票数 0

3回答

使用tm进行文本挖掘，删除列表中不存在的单词

r、tm

使用tm包进行文本挖掘，使用removeWords()。我列出了几千个相关单词中的大约500个。我是否可以使用removeWords()来反转逻辑，并从语料库中删除不在列表中的单词？s/$wordlist//g); #not testedtext <- tm_map(text, removeWords, wo

浏览 0提问于2015-01-21得票数 1

1回答

如何在Java代码中使用RapidMiner的“从文件中处理文档”操作符

rapidminer

我刚刚开始使用快速挖掘器进行文本分类。我已经创建了一个进程，其中我使用"Process Document from Files“操作符进行tf-idf转换。我在互联网上搜索，但所有都在使用已经创建的过程或从文档生成的单词列表？我想从头开始。1)处理文件中的文档1.2)过滤1.4) N-Gram2.1)训练(K-NN) 2.2)应用模型

浏览 0提问于2014-02-11得票数 1

2回答

合并R数据帧和字数统计(长度不等)-文本挖掘

r、merge、text-mining、word-count

对于我的文本挖掘任务，我正在尝试创建一个矩阵，其中包含三个单独文本的单词计数(我已经过滤和标记化了)。我知道每个文本都有这个数据帧： word countcamera 18action5 character 2 我还创建了一个列表，将三个文本中<

浏览 17提问于2020-09-17得票数 0

3回答

为预先定义的单词列表在R中突出显示文本

r、text、highlight、word

假设我有一组文档，如： "suppose i want wordslike words to be red and words like text to be blue") 我想知道是否可以用R为预先定义的单词列表突出显示文档(特别是大型语料库)的颜色。列表中的

浏览 0提问于2018-11-22得票数 3

回答已采纳

2回答

将文档列表转换为语料库

r、text-mining、tm

我正在做以下关于文本挖掘的教程：在某个时刻，文档列表被转换为语料库：doc.corpus<- Corpus(doc.vec) 有没有人能用简单的英语给我解释一下(举个例子更好)这里到底发生了什么？

浏览 6提问于2015-08-07得票数 1

1回答

如何统计DataFrame栏中的字数？

python、pandas、dataframe

我有来自消费者调查的数据。在调查中，有一个问题专门询问如何改善与他们希望从交付服务中接收的服务列表相关的服务，并且数据以开放式存储。由于数据是句子，所以我运行了文本挖掘，并获得了列中的一些名词列表。因此，我的问题是如何计算这些单词。我想要每个单词的频率。这可能看起来像这样。我如何编写代码来计算列列表中<em

浏览 4提问于2020-10-19得票数 1

2回答

由re.findall创建到单个单词的拆分列表，然后计数每个单词的出现次数，并按出现次数降序排序。

python、regex、parsing

我必须从re.findall创建的列表的每个元素中计数每个单词的出现数。例如: jobs = "JavaScript“、”数据科学家“、"Business流程挖掘”、“JavaScript Developer”然后数数每

浏览 0提问于2019-02-02得票数 2

回答已采纳

3回答

检查英语词典中是否存在单词

r、shiny、text-mining

我正在对多个简历进行文本分析，使用wordcloud包和tm包生成wordcloud，以便在R中对文档进行预处理。感谢你的帮助。

浏览 1提问于2017-07-07得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云