腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
是否
可以
在
Quanteda
中文版
的
tokenizer
中
添加
自定义
tokens
?
、
、
有没有人知道
在
Quanteda
中将文本标记化后,
是否
可以
添加
自定义
标记? 我正在尝试对中文文本进行一些分析,但分词器无法将东盟
的
缩写“东盟”识别为一个单词(例如,见下文)。或者,
是否
有适用于
Quanteda
的
中文文本
的
替代标记器。我一直
在
使用Spacyr包,但目前还不能正常工作。我做了一些函数,使用“特征共现矩阵”来计算其他单词
在
特定term
的
5
浏览 73
提问于2021-07-09
得票数 1
回答已采纳
1
回答
在
R中使用带有狐猴
的
txt文件
的
局部化
、
、
、
、
如果没有,这个数据库
可以
转换成对任何提供柠檬化
的
包有用吗?或许
可以
把它转换成一个宽
的
形式?简单地说:在任何已知
的
CRAN文本挖掘包
中
如何使用txt文件
中
的
引理来完成柠檬化?如果是的话,如何格式化这样
的
txt文件?更新:亲爱
的
@DmitriySelivanov我去掉了所有的指示符号,现在我想把它应用在tm语料库"docs“上 docs <- tm_map(docs, function(x) lemma_
浏览 3
提问于2017-08-18
得票数 1
回答已采纳
2
回答
使用tm()挖掘两个和三个单词短语
的
PDF
、
、
、
、
我试着为特定
的
两个和三个单词词组挖掘一组PDF。我知道这个问题是
在
不同
的
情况下提出
的
,而且,qdap库不会加载,我浪费了一个小时来解决这个问题,所以也不能工作,尽管它看起来相当容易。documenttermmatrix df1 <- data.frame(docs = dtm$dimnames$Docs, as.matr
浏览 3
提问于2019-09-28
得票数 2
回答已采纳
2
回答
“字符袋”n-克(R)
、
、
、
、
我想要创建一个包含字符n克
的
术语文档矩阵.例如,以下列句子为例:我使用了R/Weka包来处理“单词袋”n-克,但是我很难使用下面这样
的
标记器来处理字符
浏览 5
提问于2016-01-03
得票数 3
回答已采纳
2
回答
quanteda
:删除字符串
中
的
标签(#,@)和url
、
、
、
、
testurl.com/5lhk5p #Greenwashing #PR #Vattenfal") 我创建了一个dfm (创建一个文档-特征矩阵),并对字符串进行预处理,如下所示: txt_corp <-
quanteda
::corpus(txt) txt_dfm <-
quanteda
::dfm(txt_corp,remove_punct=TRUE, remove_symbols=TRUE, remove_url =我尝试了一些组合,比如:txt_dfm <-
quanteda
::dfm(txt_co
浏览 35
提问于2020-09-09
得票数 2
1
回答
输出R
中
同时包含单字和双字
的
文本
、
、
我正在尝试弄清楚如何在R
中
识别文本
中
的
单字和双字,然后根据阈值将这两个字保持
在
最终输出
中
。我已经
在
Python中用gensim
的
词组模型完成了这项工作,但还没有想出如何在R
中
做到这一点。
浏览 28
提问于2020-08-22
得票数 0
回答已采纳
1
回答
为什么拥抱面t5标记器忽略了一些空白空间?
、
、
我想向标记器
中
添加
某些白色代码,比如行结束(\t)和选项卡(\t)。
添加
这些标记
可以
工作,但是令牌程序总是忽略第二个空格。from transformers import T5
Tokenizer
tokenizer
.add_
tokens
(["\n"])
tokenizer
.
浏览 5
提问于2022-05-12
得票数 3
回答已采纳
1
回答
有没有办法
在
quanteda
中
给这个词
添加
一个标题?
、
、
、
、
library(
quanteda
) President%in% c("Washington", "Jefferson", "Madison")) %>%
tokens
_removedfm_trim(min_term
浏览 12
提问于2022-04-27
得票数 1
回答已采纳
1
回答
TfIdfVectorizer未正确标记
、
、
、
、
我
在
雪橇上使用TF-以色列国防军越野器。ui)\\b\\w*[a-z]+\\w*\\b", analyzer我
在
StackOverflow
中
的
一篇文章中找到了正则表达式,但是使用像[a-zA-Z]+这样更简单
的
regex就
可以
完成完全相同
的
任务(这是没有的)。这些只是例子,但它代表了我得到
的</e
浏览 1
提问于2019-11-28
得票数 2
回答已采纳
1
回答
使用
quanteda
进行词法分析
、
如何使用
quanteda
对像makes这样
的
单词进行词汇化,使其成为make。
在
Python语言中,
可以
使用NLTK WordNet Lemmatizer
浏览 53
提问于2020-06-12
得票数 0
回答已采纳
1
回答
如何标记R
中
的
文本列表
、
、
、
我有从10份文件中进口
的
文本清单,例如:library(readtext)doc1 <- readtext,
tokens
_tolower(keep_acronyms = TRUE) %>%
tokens
_wordstem(doc1看起来仍然与未标记
的
相同。我知道,如果指定“d
浏览 2
提问于2022-05-24
得票数 0
2
回答
删除R语料库
中
的
无意义词
、
我使用tm和wordcloud
在
R
中
执行一些基本
的
文本挖掘。正在处理
的
文本包含许多没有意义
的
单词,比如asfdg、aawptkr,我需要过滤这些单词。我发现
的
最接近
的
解决方案是使用library(qdapDictionaries)并构建一个
自定义
函数来检查单词
的
有效性。qdapDictionaries)> i
浏览 1
提问于2017-06-01
得票数 3
回答已采纳
4
回答
使用散列字典
的
归一化函数
在
R
中
不适用于tm包。
、
、
、
、
我不是幸运
的
,有一个选择波兰流行
的
文本挖掘包。@DmitriySelivanov
的
答案适用于简单
的
文本向量。(我还从词典和语料库
中
删除了波兰方言。)该函数与文本向量一起工作得很好。= function(x, lemma_hashmap,
tokens
_list=
tokenizer
(x) fo
浏览 7
提问于2017-09-08
得票数 2
回答已采纳
1
回答
如何在R文本挖掘
中
改变termDocumentmatrix语言?
、
、
在
termDocumentmatrix
的
功能上,我需要将语言转换成土耳其语。你能帮我吗?
tokens
_wordstem(language = "turkish") %>%library(tm)
浏览 2
提问于2019-12-03
得票数 0
1
回答
处理HuggingFace模型
的
令牌
、
、
、
、
我有几个问题,关于标记词/字符/表情
的
不同拥抱面模型。
是否
有一种方法
可以
轻松地找出某个特定
的
单词/表情符号
是否
与模型兼容(
在
模型培训期间)?(
在
拥抱
的
语境
中
) 如果在模型培训
中
没有包含这个单词/表情符号,那
浏览 0
提问于2021-03-24
得票数 1
1
回答
transformers BartTokenizer::add_
tokens
()不像我期望
的
那样工作于后缀
、
我似乎
可以
在
没有问题
的
情况下
添加
标记,但是如果我试图
添加
一个后缀(即..。如果前面没有init字符'Ġ' ),则标记器不会在正确
的
位置放置空格。以下是一些非常简化
的
测试代码。print('Bart default
tokenizer
')out_str =
tokenizer
.conve
浏览 1
提问于2021-11-29
得票数 3
回答已采纳
2
回答
“使用bos_token,但尚未设置”
的
含义是什么。
、
、
、
当我运行demo.py时 print(count_parameters(model)) inputs =
tokenizer
浏览 17
提问于2020-12-21
得票数 6
1
回答
如何让字节级标记器不拆分<adjective>令牌?
、
我有带有
自定义
标记
的
文本,比如:<adjective>,我正在尝试准备一个不会拆分它们
的
字节级标记赋予器:
tokenizer
.pre_
tokenizer
= ByteLevel() [('Ġ<', (0, 2)), ('adjective', (2, 11)), ('
浏览 17
提问于2020-09-16
得票数 0
1
回答
如何从dfm
中
删除罕见
的
术语?
、
、
我使用
quanteda
包
中
的
tokens
()创建了一个dfm。(大小约为40*2000)我现在要删除所有出现在不到15%
的
文档
中
的
标记。我没有真正
的
经验,
在
R,我不知道如何进行。
是否
有一种方法
可以
利用textstat_frequency()
中
的
docfreq变量,还是必须使用
tokens
_select()和一行If()语句?
浏览 0
提问于2020-04-30
得票数 1
回答已采纳
2
回答
在
uint8上以字符串
的
形式获取令牌
的
空间
、
我想知道
是否
有一种方法
可以
以字符串
的
形式使用
tokenizer
(s).to_array("LOWERCASE"),而不是使用uint8格式。" nlp = English()
tokens
= [word.text for
浏览 2
提问于2021-06-02
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
GitHub超3万星:Transformer 3发布,BERT被一分为二
使用Accelerate库在多GPU上进行LLM推理
利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调
秒读科学论文!用 BART 模型一键生成精准摘要!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券