在Quanteda中建立语料库，同时跟踪ID_在Laravel中同时建立种子关系_在ARImageTrackingConfiguration中同时跟踪两个目标 - 腾讯云开发者社区

r、nlp、quanteda

我想用Quanteda构建所有这些文档的语料库，但又不会失去将不同的文本链接回相应用户的能力。我将给您一个示例代码，以帮助您更多地了解我失败的地方。df <- data.frame('ID'=c(1,1,2), 'Text'=c('I ate apple', "I don't like fruits", "I swim in the dark"),stringsAsFactors = FALSE) df_corpus <

浏览 9提问于2020-01-23得票数 1

2回答

向R中的STM添加元数据

r、text-mining、tm、corpus、quanteda

我在R中的STM包遇到了问题，我已经在Quanteda中建立了一个语料库，我想把它转换成STM格式。我已经将元数据保存为一个独立的CSV文件，并且我想要将文本文档与元数据合并的代码。readCorpus()和"convert()函数不会自动将元数据信息添加到语料库。下面是它在Quanteda中的样子： EUdocvars <- read.csv("EU_metadata.csv",

浏览 1提问于2016-06-30得票数 1

2回答

将语料库从quanteda转换为tm

r、tm、corpus、quanteda

我的数据mycorpus是在一个quanteda语料库(corpus-function从quanteda)中，我需要将它转换为tm包下的语料库。我知道quanteda的convert-function。不过，这只会将文档功能矩阵转换为tm。我错过了什么快速的解决办法吗？tm的VCorpus(mycorpus)抛出错误消息“缺少源”

浏览 8提问于2021-07-21得票数 1

回答已采纳

1回答

通过在闪亮的应用程序文本框中键入的文本显示匹配的句子

r、shiny、tm、quanteda

我试图建立一个闪亮的应用程序，可以动态显示从数据库列匹配语料库从文本框，即句子。当用户开始在文本框中键入文本时，所有将匹配的句子(来自键入的文本的语料库)都需要按与我尝试过的语料库匹配的词数顺序显示kwic函数，但这无助于动态匹配语料库，我尝试的方法， require(quanteda

浏览 5提问于2017-08-14得票数 0

回答已采纳

2回答

dfm对象R中字符的分离

r、regex、quanteda

全,library(quanteda)library(tidyverse)sotusubsetted <- sotu %>% separa

浏览 0提问于2021-02-13得票数 0

回答已采纳

3回答

按文档提取tf-idf to特征的正确方法是什么？

r、quanteda

假设我们有一个来自10K个相当小的文档的语料库的tf-idf加权dfm。提取顶级特征的quanteda方法是什么，即文档的最大tf-IDF值？我确实希望在计算tf-idf时将整个语料库作为参考。一些类似的东西 topfeatures(some_dfm_tf_idf, n =3, decreasing = TRUE, groups ="id") 返回适当的列表。鉴于到目前为止，quanteda在我所做的一切中都表现得如此出色，我怀疑我在这里可能做错了

浏览 26提问于2019-12-03得票数 0

回答已采纳

1回答

从包含文档名称的df创建语料库

r、quanteda

我正在使用readtext包将我所有的文本文件读取到一个df中。df <- readtext(directory, "*.txt")corpus <- corpus(df) 但现在这不再起

浏览 0提问于2018-05-05得票数 1

2回答

R:将“术语文档矩阵”转换为“语料库”

r、text、nlp、text-mining

我正在尝试遵循本教程(https://cran.r-project.org/web/packages/tidytext/vignettes/tidying_casting.html)中的说明，学习如何将“术语文档矩阵”转换为“语料库”。tdm) 现在，我不确定如何使用本教程(https://cran.r-project.org/web/packages/tidytext/vignettes/tidying_casting

浏览 25提问于2021-05-05得票数 0

1回答

使用get()函数以编程方式分配quanteda文档变量

r、quanteda

我正在开发一个例程来自动定义几个语料库 quanteda ..。我有几个控制脚本的参数，其中一个是将要生成的语料库的名称。我可以使用下面的函数轻松地以编程方式创建语料库 但我完全没有添加任何文档变量为它干杯。一旦我定义了语料库，我通常会通过函数在整个代码中调用它 ..。我已经相当广泛地使用了这种方法，并取得了成功。请看下面的简单代码，我在其中定义了语料库，然后尝试将一个docvar与其关联。://quanteda</e

浏览 22提问于2021-02-18得票数 1

回答已采纳

2回答

如何将自定义函数应用于quanteda语料库

r、text-mining、quanteda

我正在尝试将脚本从tm迁移到quanteda。阅读quanteda文档时，有一种将变更应用到“下游”以使原始语料库保持不变的哲学。好的。我以前写过一个脚本来查找tm语料库中的拼写错误，并得到我们团队的支持来创建一个手动查找。因此，我有一个csv文件有2列，第一列是拼写错误的术语，第二列是该术语的正确版本。在使用tm包之前，我这样做了：# "Spellingdoc" is the

浏览 2提问于2017-08-30得票数 1

回答已采纳

1回答

为什么当我申请到quanteda.corba的英国政党宣言语料库时，quanteda的textmodel_wordfish会无限运行？

r、nlp、quanteda

我正在尝试将wordfish应用于quanteda.corda的data_corpus_ukmanifestos，但它似乎从未停止运行。另一方面，当我使用quanteda的wordfish教程中的示例代码时，wordfish在几秒钟内就完成了。这对我来说是个问题吗？这种情况也发生在其他人身上吗？我怎样才能避开这个问题呢？正如我所说，wordfish在爱尔兰预算演讲上运行时只需几秒钟，但在应用于政党宣言时从不停止运行。quanteda/quanteda.corp

浏览 30提问于2019-04-13得票数 0

1回答

如何在`texplot_xray()`中获得单列答案？

r、text-mining、quanteda

我想做一个多语种平行语料库扫描，以评估可能的对等。为此，我需要texplot_xray()在一列中返回多个答案。在第一次搜索中，英语、意大利语和西班牙语中拉丁语词源的使用是平等的，但在某种程度上似乎是对等的，而法国人类=> l‘’homme的情况并非如此。# require(quanteda)# require(quanteda.texplots) corpusa <

浏览 6提问于2022-06-05得票数 1

回答已采纳

1回答

语料库组合中语料库的Docvar指示器

r、quanteda

在组合quanteda语料库(使用加号运算符)时，是否有任何方法可以自动创建一个指示变量，以标记文档来自哪个源语料库？例如，假设你有两个语料库，corpus1和corpus2。您运行以下命令：我想找到一些方法来创建一个新的docvar，它指示corpus3中每个文档来自哪个语料库。有什么想法吗？

浏览 0提问于2018-07-28得票数 1

回答已采纳

1回答

dfm_weight()导致相对频率>1

r、nlp、quanteda、weighted

我正在使用Quanteda，并试图计算语料库中特定单词的相对频率，该语料库是按日期和当事方组织的。但是，在将语料库转换为dfm并使用dfm_weight(dfmat，than =“textstat_frequency”)之后，我得到了大于1的分数。下面是我的代码(我还拦截并清理了标记，而不是代码中的标记)： corp <- corpus(title_df, text_field = "text", meta = list(title_df[,-

浏览 5提问于2022-04-10得票数 0

1回答

使用多字模式/词组的字典的全德达dfm_lookup

r、dictionary、nlp、pattern-matching、quanteda

我用字典来识别语料库中一组特定单词的用法。我已经在字典中包含了多个单词模式，但是，我认为dfm_lookup (来自quanteda包)与多个单词表达式不匹配。library(quanteda) dictionary(list(identity=c("British", "Great Britain"))) British

浏览 0提问于2020-01-23得票数 2

回答已采纳

1回答

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云