Huggingface BERT标记器添加新令牌

文章/答案/技术大牛

发布

1回答

bert-language-model、huggingface-transformers、huggingface-tokenizers

我正在使用Huggingface BERT执行NLP任务。我的文本包含公司名称，这些名称被分成几个子词。tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased') tokenizer.encode_plus("Somespecialcompanytoken_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1,

浏览 61提问于2020-11-04得票数 3

2回答

huggingface -在本地保存微调的模型-以及tokenizer？

bert-language-model、huggingface-transformers

我只是想知道，如果微调BERT模型并保存它，标记器是否会受到某种影响或发生变化。以后使用保存的BERT模型时，我是否也需要在本地保存记号赋予器以重新加载它？我就是这么做的 bert_model.save_pretrained('./Fine_tune_BERT/') 然后，稍后 bert_model = TFBertModel.from_pretrained('./Fine_tune_

浏览 358提问于2020-10-20得票数 1

回答已采纳

1回答

由于代理问题，Hugginface Bert* Tokenizer从源构建*

python、tokenize、huggingface-transformers

我遇到了类似的东西：BERT tokenizer & model download 上面的链接是关于下载Bert模型本身的，但我只想使用Bert Tokenizer。通常我可以这样做： from transformers import BertTokenizerbert_tokenizer_de=BertTokeniz

浏览 125提问于2021-10-18得票数 0

回答已采纳

1回答

机器翻译变压器输出-“未知”令牌？

nlp、transformer

questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何标记我的数据，我使用德语到英语翻译任务。f

浏览 0提问于2021-11-02得票数 1

回答已采纳

1回答

BERT序列标记

pytorch、lstm、huggingface-transformers、torchtext

我正在使用一个由嵌入层和LSTM组成的模型来执行序列标记，在py电筒+ torchtext中。我已经把句子标记出来了。 BertModel是否需要这两个标记</e

浏览 0提问于2020-05-10得票数 0

回答已采纳

1回答

BERT嵌入SPARKNLP或BERT在拥抱面标记分类中的应用

nlp、bert-language-model、huggingface-transformers、johnsnowlabs-spark-nlp

目前，我的工作是生产一个新的模式在星火。我有一个当前的实现，即在TokenClassification头上使用Huggingface，但是由于性能有点慢，而且代价很高，所以我试图找到优化的方法。我检查了SPARKNLP实现，该实现缺乏经过预先培训的DISTILBERT，我是否认为有一种不同的方法，因此出现了一些有关这方面的问题： Huggingface使用整个BERT模型，并为令牌分类添加了一个头这与获取BERT嵌入并将它们提供给另一个NN相同吗？我这样问是因为这是SP

浏览 2提问于2020-10-30得票数 2

回答已采纳

1回答

如何获取角字句中的标记数

python、nlp、token、huggingface-transformers、bert-language-model

我有一个句子和一个预先训练过的记号器。我想要计算句子中标记的数量，没有特殊的标记。我使用来自HuggingFace的HuggingFace。from transformers import BertTokenizer, TFBertModelmodel = TFBertModel.from_pretrained("bert</e

浏览 6提问于2022-03-05得票数 0

回答已采纳

3回答

有什么理由去拯救一个经过预先训练的伯特记号器吗？

save、pytorch、bert-language-model、huggingface-tokenizers

假设我使用的是tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)，在对新模型进行微调期间，我使用该令牌程序所做的全部工作就是标准的tokenizer.encode()。我在大多数地方看到，人们在保存模型的同时保存令牌，但我不清楚为什么有必要保存，因为它似乎是一个开箱即用的令牌器，在培训期间不进行任何修改。

浏览 7提问于2020-09-22得票数 2

回答已采纳

1回答

使用BERT模型检索“相关令牌”(已经过微调)

keyword、bert-language-model、huggingface-transformers、attention-model

我已经针对分类任务对BERT模型(使用huggingface库)进行了微调，以预测两种类型的帖子类别(例如，1和0 )。但是，我需要检索被预测为类别1的文档的“相关令牌”(例如)。我知道，一旦我用BERT模型将所有帖子标记为1(例如)，我就可以使用传统的TF-IDF方法。但我有以下问题:有没有可能用经过微调的BERT模型的架构来完成同样的任务？我的意思是，访问编码器的最后一层(预测层)，并使用注意力机制，获得使te预测为1的“相关”标记(例如)？这样做

浏览 19提问于2021-03-30得票数 0

1回答

如何使令牌不被拥抱面标记器分割？

huggingface-transformers

我有一个字符串，如"xxx“，并且我使用来自Huggingface的BERT令牌：但是，我希望能够强制执行某些单词(例如"abcd")不应该被子<e

浏览 3提问于2022-08-05得票数 3

回答已采纳

1回答

错误：'utf-8‘编解码器无法解码7526-7527位置的字节:无效的连续字节

python、utf-8、load

我在直接下载Bert模型(公司的隐私政策)时遇到连接问题，所以我在https://github.com/huggingface/transformers/blob/master/src/transformers/tokenization_bert.py下载了BertTokenizer 并得到了我的模型令牌器的txt文件。“bert-base-多语言大小写”："https:/&#x

浏览 13提问于2020-01-13得票数 0

回答已采纳

1回答

transformers AutoTokenizer.tokenize引入额外的角色

python、huggingface-transformers、huggingface-tokenizers

我正在使用HuggingFace转换器AutoTokenizer来标记化小段文本。但是，这种标记化在单词中间拆分不正确，并且在标记中引入了#字符。我尝试了几种不同的模型，结果都是一样的。下面是一段文本和从它创建的标记的示例。Ltd ['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications',

浏览 53提问于2021-11-10得票数 2

回答已采纳

1回答

快速和慢速标记器产生不同的结果

python、nlp、huggingface-transformers、bert-language-model、huggingface-tokenizers

在使用HuggingFace的pipeline tool时，我惊讶地发现在使用快速记号赋值器与慢速记号赋值器时，输出存在显著差异。具体地说，当我运行填充掩码管道时，分配给填充掩码的单词的概率对于快速和慢速记号赋予器是不同的。此外，尽管快速标记器的预测保持不变，而与输入的句子数量和长度无关，但对于慢速标记器则不是如此。据我所知，这背后的原因是快速和缓慢的标记器返回不同的输出。快速标记器</em

浏览 27提问于2020-04-12得票数 3

1回答

BERT编码器-解码器文本生成的限制词汇

nlp、huggingface-transformers、bert-language-model、seq2seq、sentence-transformers

在Huggingface BERT编解码器模型中，有没有办法限制解码器的词汇量？我想强制解码器在生成文本时从较小的词汇表中进行选择，而不是BERT的整个约30K的词汇表。

浏览 94提问于2021-10-06得票数 3

1回答

Huggingface的BERT令牌器不添加pad令牌

tokenize、huggingface-transformers、bert-language-model

但是，考虑到pad_token_id=0，我在token_ids中看不到任何0： tokenizer = BertTokenizer.from_pretrained('bert-base-uncased

浏览 2提问于2020-04-26得票数 3

回答已采纳

1回答

如何在HuggingFace中拼接特殊标记和单词的单词嵌入？

bert-language-model、huggingface-transformers、named-entity-recognition

我试图给Huggingface预训练的BERT记号赋值器增加一个额外的维度。额外的列表示额外的标签。例如，如果单词“dog”的原始嵌入是1,1,1,1,1,1,1，1，1，1，1，那么我可能会添加一个索引为2的特殊列来表示“名词”。因此，新的嵌入变为1，1，1，1，1，1，2。然后，我将把新的输入1，1，1，1，1，1，2输入到Bert模型中。我如何在Huggingface中做到这一点？有一个叫做tokenizer.add_special_tokens

浏览 3提问于2021-06-13得票数 0

2回答

在BERT/RoBERTa中添加新令牌，同时保留相邻令牌的标记化

huggingface-transformers、bert-language-model、roberta-language-model

我试图添加一些新的令牌到伯特和RoBERTa令牌，以便我可以微调模型上的一个新的词。为了做到这一点，我想添加新的标记，本质上把它们当作新的普通单词(模型还没有遇到)。它们的行为应该与添加后的正常词完全一样，但它们的嵌入矩阵将被随机初始化，然后在微调过程中学习。在下面的示例中可以观察到这个问题；在BERT的情况下，新添加的令牌后面的时间不被标记为子

浏览 18提问于2021-12-07得票数 3

1回答

用Keras和Python创建NER模型

python、keras、nlp

对于预处理，我使用了向量化器： transformerVectoriser = ColumnTransformer(transformers=[('vector char', CountVectorizer

浏览 4提问于2021-03-27得票数 3

1回答

使用BERT的文本分类-如何处理拼写错误的单词

pytorch、text-classification、huggingface-transformers、bert-language-model、misspelling

我构建了一个基于BERT概念的模型，并在PyTorch (huggingface transformer library)中实现。该模型执行得很好，除非输入句子有OCR错误或等效地拼写错误。例如，如果输入是"NALIBU DRINK“，Bert标记器会生成'na'，'##lib'，'##u'，'drink‘，模型的预测是完全错误的。另一方面，如果我纠正了第一个字符，所以我的输入是"MALIBU DRINK"

浏览 38提问于2020-04-04得票数 0

1回答

BERT模型："enable_padding()获得意外的关键字参数'max_length'“

nlp、padding、tokenize、bert-language-model

我正在尝试使用Hugging和KERAS实现BERT模型架构。我正在从Kaggle ()中学习这一点，并试图理解它。当我对我的数据进行标记化时，我会遇到一些问题，并得到一条错误消息。chunk_size=256, maxlen=512): Encoder for encoding the text into sequence of integers for BERT

浏览 1提问于2021-03-22得票数 1

点击加载更多