腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Huggingface
BERT
标记
器
添加
新
令牌
bert-language-model
、
huggingface-transformers
、
huggingface-tokenizers
我正在使用
Huggingface
BERT
执行NLP任务。我的文本包含公司名称,这些名称被分成几个子词。tokenizer = BertTokenizerFast.from_pretrained('
bert
-base-uncased') tokenizer.encode_plus("Somespecialcompanytoken_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1,
浏览 61
提问于2020-11-04
得票数 3
2
回答
huggingface
-在本地保存微调的模型-以及tokenizer?
bert-language-model
、
huggingface-transformers
我只是想知道,如果微调
BERT
模型并保存它,
标记
器
是否会受到某种影响或发生变化。以后使用保存的
BERT
模型时,我是否也需要在本地保存记号赋予
器
以重新加载它?我就是这么做的
bert
_model.save_pretrained('./Fine_tune_
BERT
/') 然后,稍后
bert
_model = TFBertModel.from_pretrained('./Fine_tune_
浏览 358
提问于2020-10-20
得票数 1
回答已采纳
1
回答
由于代理问题,Hugginface
Bert
Tokenizer从源构建
python
、
tokenize
、
huggingface-transformers
我遇到了类似的东西:
BERT
tokenizer & model download 上面的链接是关于下载
Bert
模型本身的,但我只想使用
Bert
Tokenizer。通常我可以这样做: from transformers import BertTokenizer
bert
_tokenizer_de=BertTokeniz
浏览 125
提问于2021-10-18
得票数 0
回答已采纳
1
回答
机器翻译变压
器
输出-“未知”
令牌
?
nlp
、
transformer
questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何
标记
我的数据,我使用德语到英语翻译任务。f
浏览 0
提问于2021-11-02
得票数 1
回答已采纳
1
回答
BERT
序列
标记
pytorch
、
lstm
、
huggingface-transformers
、
torchtext
我正在使用一个由嵌入层和LSTM组成的模型来执行序列
标记
,在py电筒+ torchtext中。我已经把句子
标记
出来了。 BertModel是否需要这两个
标记</e
浏览 0
提问于2020-05-10
得票数 0
回答已采纳
1
回答
BERT
嵌入SPARKNLP或
BERT
在拥抱面
标记
分类中的应用
nlp
、
bert-language-model
、
huggingface-transformers
、
johnsnowlabs-spark-nlp
目前,我的工作是生产一个
新
的模式在星火。我有一个当前的实现,即在TokenClassification头上使用
Huggingface
,但是由于性能有点慢,而且代价很高,所以我试图找到优化的方法。我检查了SPARKNLP实现,该实现缺乏经过预先培训的DISTILBERT,我是否认为有一种不同的方法,因此出现了一些有关这方面的问题:
Huggingface
使用整个
BERT
模型,并为
令牌
分类
添加
了一个头这与获取
BERT
嵌入并将它们提供给另一个NN相同吗?我这样问是因为这是SP
浏览 2
提问于2020-10-30
得票数 2
回答已采纳
1
回答
如何获取角字句中的
标记
数
python
、
nlp
、
token
、
huggingface-transformers
、
bert-language-model
我有一个句子和一个预先训练过的记号
器
。我想要计算句子中
标记
的数量,没有特殊的
标记
。我使用来自
HuggingFace
的
HuggingFace
。from transformers import BertTokenizer, TFBertModelmodel = TFBertModel.from_pretrained("
bert</e
浏览 6
提问于2022-03-05
得票数 0
回答已采纳
3
回答
有什么理由去拯救一个经过预先训练的伯特记号
器
吗?
save
、
pytorch
、
bert-language-model
、
huggingface-tokenizers
假设我使用的是tokenizer = BertTokenizer.from_pretrained('
bert
-base-uncased', do_lower_case=True),在对
新
模型进行微调期间,我使用该
令牌
程序所做的全部工作就是标准的tokenizer.encode()。我在大多数地方看到,人们在保存模型的同时保存
令牌
,但我不清楚为什么有必要保存,因为它似乎是一个开箱即用的
令牌
器
,在培训期间不进行任何修改。
浏览 7
提问于2020-09-22
得票数 2
回答已采纳
1
回答
使用
BERT
模型检索“相关
令牌
”(已经过微调)
keyword
、
bert-language-model
、
huggingface-transformers
、
attention-model
我已经针对分类任务对
BERT
模型(使用
huggingface
库)进行了微调,以预测两种类型的帖子类别(例如,1和0 )。但是,我需要检索被预测为类别1的文档的“相关
令牌
”(例如)。我知道,一旦我用
BERT
模型将所有帖子
标记
为1(例如),我就可以使用传统的TF-IDF方法。但我有以下问题:有没有可能用经过微调的
BERT
模型的架构来完成同样的任务?我的意思是,访问编码
器
的最后一层(预测层),并使用注意力机制,获得使te预测为1的“相关”
标记
(例如)?这样做
浏览 19
提问于2021-03-30
得票数 0
1
回答
如何使
令牌
不被拥抱面
标记
器
分割?
huggingface-transformers
我有一个字符串,如"xxx“,并且我使用来自
Huggingface
的
BERT
令牌
:但是,我希望能够强制执行某些单词(例如"abcd")不应该被子<e
浏览 3
提问于2022-08-05
得票数 3
回答已采纳
1
回答
错误:'utf-8‘编解码
器
无法解码7526-7527位置的字节:无效的连续字节
python
、
utf-8
、
load
我在直接下载
Bert
模型(公司的隐私政策)时遇到连接问题,所以我在https://github.com/
huggingface
/transformers/blob/master/src/transformers/tokenization_
bert
.py下载了BertTokenizer 并得到了我的模型
令牌
器
的txt文件。“
bert
-base-多语言大小写”:"https:/
浏览 13
提问于2020-01-13
得票数 0
回答已采纳
1
回答
transformers AutoTokenizer.tokenize引入额外的角色
python
、
huggingface-transformers
、
huggingface-tokenizers
我正在使用
HuggingFace
转换
器
AutoTokenizer来
标记
化小段文本。但是,这种
标记
化在单词中间拆分不正确,并且在
标记
中引入了#字符。我尝试了几种不同的模型,结果都是一样的。下面是一段文本和从它创建的
标记
的示例。Ltd ['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications',
浏览 53
提问于2021-11-10
得票数 2
回答已采纳
1
回答
快速和慢速
标记
器
产生不同的结果
python
、
nlp
、
huggingface-transformers
、
bert-language-model
、
huggingface-tokenizers
在使用
HuggingFace
的pipeline tool时,我惊讶地发现在使用快速记号赋值
器
与慢速记号赋值
器
时,输出存在显著差异。具体地说,当我运行填充掩码管道时,分配给填充掩码的单词的概率对于快速和慢速记号赋予
器
是不同的。此外,尽管快速
标记
器
的预测保持不变,而与输入的句子数量和长度无关,但对于慢速
标记
器
则不是如此。据我所知,这背后的原因是快速和缓慢的
标记
器
返回不同的输出。快速
标记
器</em
浏览 27
提问于2020-04-12
得票数 3
1
回答
BERT
编码
器
-解码
器
文本生成的限制词汇
nlp
、
huggingface-transformers
、
bert-language-model
、
seq2seq
、
sentence-transformers
在
Huggingface
BERT
编解码
器
模型中,有没有办法限制解码
器
的词汇量?我想强制解码
器
在生成文本时从较小的词汇表中进行选择,而不是
BERT
的整个约30K的词汇表。
浏览 94
提问于2021-10-06
得票数 3
1
回答
Huggingface
的
BERT
令牌
器
不
添加
pad
令牌
tokenize
、
huggingface-transformers
、
bert-language-model
但是,考虑到pad_token_id=0,我在token_ids中看不到任何0: tokenizer = BertTokenizer.from_pretrained('
bert
-base-uncased
浏览 2
提问于2020-04-26
得票数 3
回答已采纳
1
回答
如何在
HuggingFace
中拼接特殊
标记
和单词的单词嵌入?
bert-language-model
、
huggingface-transformers
、
named-entity-recognition
我试图给
Huggingface
预训练的
BERT
记号赋值
器
增加一个额外的维度。额外的列表示额外的标签。例如,如果单词“dog”的原始嵌入是1,1,1,1,1,1,1,1,1,1,1,那么我可能会
添加
一个索引为2的特殊列来表示“名词”。因此,
新
的嵌入变为1,1,1,1,1,1,2。然后,我将把
新
的输入1,1,1,1,1,1,2输入到
Bert
模型中。我如何在
Huggingface
中做到这一点?有一个叫做tokenizer.add_special_tokens
浏览 3
提问于2021-06-13
得票数 0
2
回答
在
BERT
/RoBERTa中
添加
新
令牌
,同时保留相邻
令牌
的
标记
化
huggingface-transformers
、
bert-language-model
、
roberta-language-model
我试图
添加
一些
新
的
令牌
到伯特和RoBERTa
令牌
,以便我可以微调模型上的一个
新
的词。为了做到这一点,我想
添加
新
的
标记
,本质上把它们当作
新
的普通单词(模型还没有遇到)。它们的行为应该与
添加
后的正常词完全一样,但它们的嵌入矩阵将被随机初始化,然后在微调过程中学习。在下面的示例中可以观察到这个问题;在
BERT
的情况下,新
添加
的
令牌
后面的时间不被
标记
为子
浏览 18
提问于2021-12-07
得票数 3
1
回答
用Keras和Python创建NER模型
python
、
keras
、
nlp
对于预处理,我使用了向量化
器
: transformerVectoriser = ColumnTransformer(transformers=[('vector char', CountVectorizer
浏览 4
提问于2021-03-27
得票数 3
1
回答
使用
BERT
的文本分类-如何处理拼写错误的单词
pytorch
、
text-classification
、
huggingface-transformers
、
bert-language-model
、
misspelling
我构建了一个基于
BERT
概念的模型,并在PyTorch (
huggingface
transformer library)中实现。该模型执行得很好,除非输入句子有OCR错误或等效地拼写错误。例如,如果输入是"NALIBU DRINK“,
Bert
标记
器
会生成'na','##lib','##u','drink‘,模型的预测是完全错误的。另一方面,如果我纠正了第一个字符,所以我的输入是"MALIBU DRINK"
浏览 38
提问于2020-04-04
得票数 0
1
回答
BERT
模型:"enable_padding()获得意外的关键字参数'max_length'“
nlp
、
padding
、
tokenize
、
bert-language-model
我正在尝试使用Hugging和KERAS实现
BERT
模型架构。我正在从Kaggle ()中学习这一点,并试图理解它。当我对我的数据进行
标记
化时,我会遇到一些问题,并得到一条错误消息。chunk_size=256, maxlen=512): Encoder for encoding the text into sequence of integers for
BERT
浏览 1
提问于2021-03-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Transformers回顾:从BERT到GPT4
GitHub超3万星:Transformer 3发布,BERT被一分为二
为什么 XLNet 能够在 20 多项任务中胜过 BERT?
【LLMs-BERT-2018】BERT模型-开创精彩的大规模预训练语言模型热潮(下)
微软提出新预训练语言模型DeBERTa:仅需一半数据且效果优于BERT、RoBERTa
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券