是否可以在Quanteda中文版的tokenizer中添加自定义tokens？

、、

有没有人知道在Quanteda中将文本标记化后，是否可以添加自定义标记？我正在尝试对中文文本进行一些分析，但分词器无法将东盟的缩写“东盟”识别为一个单词(例如，见下文)。或者，是否有适用于Quanteda的中文文本的替代标记器。我一直在使用Spacyr包，但目前还不能正常工作。我做了一些函数，使用“特征共现矩阵”来计算其他单词在特定term的5

浏览 73提问于2021-07-09得票数 1

回答已采纳

1回答

在R中使用带有狐猴的txt文件的局部化

、、、、

如果没有，这个数据库可以转换成对任何提供柠檬化的包有用吗？或许可以把它转换成一个宽的形式？简单地说:在任何已知的CRAN文本挖掘包中如何使用txt文件中的引理来完成柠檬化？如果是的话，如何格式化这样的txt文件？更新:亲爱的@DmitriySelivanov我去掉了所有的指示符号，现在我想把它应用在tm语料库"docs“上 docs <- tm_map(docs, function(x) lemma_

浏览 3提问于2017-08-18得票数 1

回答已采纳

2回答

使用tm()挖掘两个和三个单词短语的PDF

、、、、

我试着为特定的两个和三个单词词组挖掘一组PDF。我知道这个问题是在不同的情况下提出的，而且，qdap库不会加载，我浪费了一个小时来解决这个问题，所以也不能工作，尽管它看起来相当容易。documenttermmatrix df1 <- data.frame(docs = dtm$dimnames$Docs, as.matr

浏览 3提问于2019-09-28得票数 2

回答已采纳

2回答

“字符袋”n-克(R)

、、、、

我想要创建一个包含字符n克的术语文档矩阵.例如，以下列句子为例：我使用了R/Weka包来处理“单词袋”n-克，但是我很难使用下面这样的标记器来处理字符

浏览 5提问于2016-01-03得票数 3

回答已采纳

2回答

quanteda:删除字符串中的标签(#，@)和url

、、、、

testurl.com/5lhk5p #Greenwashing #PR #Vattenfal") 我创建了一个dfm (创建一个文档-特征矩阵)，并对字符串进行预处理，如下所示： txt_corp <- quanteda::corpus(txt) txt_dfm <- quanteda::dfm(txt_corp,remove_punct=TRUE, remove_symbols=TRUE, remove_url =我尝试了一些组合，比如：txt_dfm <- quanteda::dfm(txt_co

浏览 35提问于2020-09-09得票数 2

1回答

输出R中同时包含单字和双字的文本

、、

我正在尝试弄清楚如何在R中识别文本中的单字和双字，然后根据阈值将这两个字保持在最终输出中。我已经在Python中用gensim的词组模型完成了这项工作，但还没有想出如何在R中做到这一点。

浏览 28提问于2020-08-22得票数 0

回答已采纳

1回答

为什么拥抱面t5标记器忽略了一些空白空间？

、、

我想向标记器中添加某些白色代码，比如行结束(\t)和选项卡(\t)。添加这些标记可以工作，但是令牌程序总是忽略第二个空格。from transformers import T5Tokenizertokenizer.add_tokens(["\n"]) tokenizer.

浏览 5提问于2022-05-12得票数 3

回答已采纳

1回答

有没有办法在quanteda中给这个词添加一个标题？

、、、、

library(quanteda) President%in% c("Washington", "Jefferson", "Madison")) %>% tokens_removedfm_trim(min_term

浏览 12提问于2022-04-27得票数 1

回答已采纳

1回答

TfIdfVectorizer未正确标记

、、、、

我在雪橇上使用TF-以色列国防军越野器。ui)\\b\\w*[a-z]+\\w*\\b", analyzer我在StackOverflow中的一篇文章中找到了正则表达式，但是使用像[a-zA-Z]+这样更简单的regex就可以完成完全相同的任务(这是没有的)。这些只是例子，但它代表了我得到的</e

浏览 1提问于2019-11-28得票数 2

回答已采纳

1回答

使用quanteda进行词法分析

、

如何使用quanteda对像makes这样的单词进行词汇化，使其成为make。在Python语言中，可以使用NLTK WordNet Lemmatizer

浏览 53提问于2020-06-12得票数 0

回答已采纳

1回答

如何标记R中的文本列表

、、、

我有从10份文件中进口的文本清单，例如：library(readtext)doc1 <- readtext, tokens_tolower(keep_acronyms = TRUE) %>% tokens_wordstem(doc1看起来仍然与未标记的相同。我知道，如果指定“d

浏览 2提问于2022-05-24得票数 0

2回答

删除R语料库中的无意义词

、

我使用tm和wordcloud在R中执行一些基本的文本挖掘。正在处理的文本包含许多没有意义的单词，比如asfdg、aawptkr，我需要过滤这些单词。我发现的最接近的解决方案是使用library(qdapDictionaries)并构建一个自定义函数来检查单词的有效性。qdapDictionaries)> i

浏览 1提问于2017-06-01得票数 3

回答已采纳

4回答

使用散列字典的归一化函数在R中不适用于tm包。

、、、、

我不是幸运的，有一个选择波兰流行的文本挖掘包。@DmitriySelivanov的答案适用于简单的文本向量。(我还从词典和语料库中删除了波兰方言。)该函数与文本向量一起工作得很好。= function(x, lemma_hashmap, tokens_list= tokenizer(x) fo

浏览 7提问于2017-09-08得票数 2

回答已采纳

1回答

如何在R文本挖掘中改变termDocumentmatrix语言？

、、

在termDocumentmatrix的功能上，我需要将语言转换成土耳其语。你能帮我吗？ tokens_wordstem(language = "turkish") %>%library(tm)

浏览 2提问于2019-12-03得票数 0

1回答

处理HuggingFace模型的令牌

、、、、

我有几个问题，关于标记词/字符/表情的不同拥抱面模型。是否有一种方法可以轻松地找出某个特定的单词/表情符号是否与模型兼容(在模型培训期间)？(在拥抱的语境中) 如果在模型培训中没有包含这个单词/表情符号，那

浏览 0提问于2021-03-24得票数 1

1回答

transformers BartTokenizer::add_tokens()不像我期望的那样工作于后缀

、

我似乎可以在没有问题的情况下添加标记，但是如果我试图添加一个后缀(即..。如果前面没有init字符'Ġ' )，则标记器不会在正确的位置放置空格。以下是一些非常简化的测试代码。print('Bart default tokenizer')out_str = tokenizer.conve

浏览 1提问于2021-11-29得票数 3

回答已采纳

2回答

“使用bos_token，但尚未设置”的含义是什么。

、、、

当我运行demo.py时 print(count_parameters(model)) inputs = tokenizer

浏览 17提问于2020-12-21得票数 6

1回答

如何让字节级标记器不拆分<adjective>令牌？

、

我有带有自定义标记的文本，比如：<adjective>，我正在尝试准备一个不会拆分它们的字节级标记赋予器： tokenizer.pre_tokenizer = ByteLevel() [('Ġ<', (0, 2)), ('adjective', (2, 11)), ('

浏览 17提问于2020-09-16得票数 0

1回答

如何从dfm中删除罕见的术语？

、、

我使用quanteda包中的tokens()创建了一个dfm。(大小约为40*2000)我现在要删除所有出现在不到15%的文档中的标记。我没有真正的经验，在R，我不知道如何进行。是否有一种方法可以利用textstat_frequency()中的docfreq变量，还是必须使用tokens_select()和一行If()语句？

浏览 0提问于2020-04-30得票数 1

回答已采纳

2回答

在uint8上以字符串的形式获取令牌的空间

、

我想知道是否有一种方法可以以字符串的形式使用tokenizer(s).to_array("LOWERCASE")，而不是使用uint8格式。" nlp = English() tokens = [word.text for

浏览 2提问于2021-06-02得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在R中使用带有狐猴的txt文件的局部化

使用tm()挖掘两个和三个单词短语的PDF

“字符袋”n-克(R)

quanteda:删除字符串中的标签(#，@)和url

输出R中同时包含单字和双字的文本

为什么拥抱面t5标记器忽略了一些空白空间？

有没有办法在quanteda中给这个词添加一个标题？

TfIdfVectorizer未正确标记

使用quanteda进行词法分析

如何标记R中的文本列表

删除R语料库中的无意义词

使用散列字典的归一化函数在R中不适用于tm包。

如何在R文本挖掘中改变termDocumentmatrix语言？

处理HuggingFace模型的令牌

transformers BartTokenizer::add_tokens()不像我期望的那样工作于后缀

“使用bos_token，但尚未设置”的含义是什么。

如何让字节级标记器不拆分<adjective>令牌？

如何从dfm中删除罕见的术语？

在uint8上以字符串的形式获取令牌的空间

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐