R包选择大量的单词保存在文本语料库中

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我有大约70.000个frequent_words，我想以它们出现的相同顺序保存在文本语料库中(顺序很重要)。删除不常用的单词是不可能的，因为length(less_frequent_words) > 1.000.000，并且需要很长的时间： chunk <- 500r <- rep(1:ceiling(n/chun

浏览 18提问于2020-04-28得票数 0

回答已采纳

3回答

如何在R中找出语料库中的所有大写单词

、

所以，我有一个文档语料库，我需要在R中的所有文档中找到所有都是大写的单词(即，单词中的每个字符都是大写的)。我不确定如何找到它。我看过R中的文本挖掘'tm‘包，没有这样的函数可以找到它。输入字符串："Russia Is THE BiggEST cOUNTRY" 所需输出："

浏览 3提问于2016-09-14得票数 1

1回答

NLP:把带标签的单词排成适当的英语句子？

我得到的输出是：怎样才能最好地将措辞安排成恰当的英语句子：Hello how are you ?我对整个自然语言处理是陌生的，所以我不熟悉许多术语。我能想到的唯一办法就是--用语句来确定：adverb - verb - noun，然后根据这些语句重新排列它们？注意:让我们假设我正在尝试形成适当的问题，所以忽略确定它是一个问题还是一个陈述。

浏览 1提问于2015-05-24得票数 2

回答已采纳

2回答

基于引理的语料库中词的查找

、、、

我正在用R做文本挖掘，我得到了一个我想解决的“问题”。为了在语料库中找到包含最多给定单词或表达式的报告，我使用了来自kwic包的quanteda函数，如下所示：其中corp2是一个语料库。我知道udpipe包，由于它的udpipe_annotate函数:，能够提取文

浏览 1提问于2018-04-07得票数 1

回答已采纳

3回答

检查英语词典中是否存在单词

、、

我正在对多个简历进行文本分析，使用wordcloud包和tm包生成wordcloud，以便在R中对文档进行预处理。感谢你的帮助。

浏览 1提问于2017-07-07得票数 6

回答已采纳

3回答

使用tm进行文本挖掘，删除列表中不存在的单词

、

使用tm包进行文本挖掘，使用removeWords()。我列出了几千个相关单词中的大约500个。我是否可以使用removeWords()来反转逻辑，并从语料库中删除不在列表中的单词？s/$wordlist//g); #not testedtex

浏览 0提问于2015-01-21得票数 1

1回答

计算数据帧中所有列对之间的点积

、、、

我有一个R data frame，列是逻辑变量。我需要使某种点积之间的，所有可能的对列。这源于文本语料库分析，其中数据框架指示哪些术语(行)存在于哪些文档(列)中。对于希望使用每个可能的列对计算距离的情况，有一些常见的快速解决方案，使用来自daisy包的cluster或来自lsa包的cosine。但是，我需要在所有列之间使用某种点乘积：目标是计

浏览 2提问于2014-05-24得票数 2

回答已采纳

1回答

从标记文本文件创建自定义nltk语料库

、、

在阅读了大量的帖子后，我仍然很难在nltk中制作一个定制语料库。我有一个标记句子的文本文件，表格字符串中的每一项.单词/标签。我想用这东西训练一个标签师。我正在尝试使用一个名为列车标签的nltk包，它可以训练各种类型的tagger。2个问题。1)训练标记者可以使用文本文件作为输入还是只使用nltk语料库对象?2)如果只使用一个语

浏览 2提问于2012-05-29得票数 0

1回答

H2O是否或将提供任何与h2o word2vec一起使用的预先训练的载体？

、、

H2O最近在其API中添加了word2vec。能够轻松地在你自己提供的语料库上训练你自己的单词向量是很棒的。词嵌入可以看作是一种无监督的学习。因此，通过使用构建在一个非常大的语料库上的经过预先训练的单词向量作为具体应用中的基础设施，可以在数据科学管道中具有很大的价值。例如，Google在其word2vec<em

浏览 0提问于2017-03-23得票数 3

回答已采纳

1回答

将文本转换为小写，但在word中保留大写字母(如果可能的话，在tm包中使用R )

、、、

是否有将文本改为小写的R函数，但对于每个单词的第一个字母，即“更改”？"You live NEAR Chicago""You live Near Chicago"(目标是在文本中建立一个简单的位置

浏览 4提问于2014-05-17得票数 2

回答已采纳

1回答

TM，Quanteda，text2vec.根据regex模式在term列表中获取词条左边的字符串

、、、

我想分析一个大量的文本文件夹，其中有几种语言的名称、地址和电话号码。R中的数据挖掘包<e

浏览 1提问于2017-07-31得票数 0

2回答

限制语料库文档字长的潜在狄利克雷分配(LDA)性能

、、、、

我一直在使用python(gensim包)中的潜在狄利克雷分配(LDA)生成客户评论集的主题。在生成标记时，我只从评论中选择长度为>= 3的单词(通过使用RegexpTokenizer)：tokenizer =RegexpTokenizer(r'\w{3,}')这将允许

浏览 2提问于2016-04-17得票数 0

3回答

文本的语义分析

、、

对于文本的语义分析，您推荐使用哪些工具？我需要处理用户输入的句子，并找出它们在语义上是否与我拥有的语料库中的单词接近。任何类型的建议(书籍或实际的工具包/API)都非常受欢迎。致以敬意，

浏览 2提问于2011-12-27得票数 1

回答已采纳

0回答

R:循环替换语料库上的同义词时出错

、、

我对R非常陌生。使用TM包，我试图通过替换同义词来清理一组txt文档。由于我将处理大量数据，因此我尝试使用excel建立一个表，其中第一列中的单词将替换为第二列中的单词，并执行循环来替换我的语料库中的单词。我的代码如下： docs <- Corpus(DirSource("C:....t

浏览 2提问于2017-06-13得票数 0

4回答

文本挖掘-最常用的词，规范化

、

我是一名研究人员，有大约17,000个自由文本文档，其中大约30-40%与我的结果相关。有没有开源工具可以用来确定与结果相关的最常见的单词(甚至是短语，但不是必需的)，并对已经出现的单词的频率进行归一化？所有的文档都是由卫生保健工作者编写的，因此规范化将很重要，因为两个文档都有技术语言，并且还希望筛选出" the“、" it”等词。我试图做的是使用正则表达式或NLP构建一个工具，

浏览 3提问于2013-03-22得票数 4

4回答

将一行一个文档转换为Blei的lda-c/dtm格式以进行主题建模？

、、

我正在为一些研究做潜在的Dirichlet分析，并不断遇到问题。大多数lda软件要求文档采用doclines格式，这意味着CSV或其他分隔文件，其中的每一行代表整个文档。但是，和动态主题模型软件要求数据的格式为：[M] [term_1]:[count] [term_2]:[count] ...[term_N]:[count]，其中[M]是文档中唯一术语的数量，与每个术语相关联的计数是该术语在文档中出现的次数。请注意，[term_1]是一个索引术语的整数

浏览 64提问于2012-01-06得票数 5

1回答

LDA (潜在Dirichlet分配)的工业应用(S)

、

LDA ( 潜Dirichlet分配) -是数据挖掘领域的一个热门话题.我也要感谢关于：https://mathoverflow.net/questions/304352/latent-dirichlet-allocation-math-words-digest的评论

浏览 0提问于2018-07-06得票数 1

1回答

如何从原语料库中包含最大句子的句子语料库中求出最小的句子？

、、、、

下面是对我问题的描述：语料库：包含原始语料库最大值的<

浏览 1提问于2017-02-16得票数 0

回答已采纳

1回答

我们什么时候从文本中提取动词短语？

、

我遇到了大量关于从文本中提取名词短语的材料。名词短语被定义为由可选的JJ修饰的相邻的NN/NNS/NNP/NNPS。很容易注意到，提取名词短语是为了获得关于文本全部内容的感觉，且可以生成单词的标签/云，或者显示文本语料库的名词短语的分布。另一方面，需要提取动词短语的场景是什么？存

浏览 2提问于2011-09-14得票数 2

回答已采纳

2回答

多语言搜索匹配

、、、、

假设我们的名称是用任何无-拉丁字母-语言写成的，比如Arabic, Hebrew, Chinese, Japanese等等。search engine如何在同名的original name和English spelling之间匹配。反之亦然？类似于日语中的名字拓海和English拼写Takumi。algorithm/technique用来做这个的是什么？

浏览 3提问于2012-07-05得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云