使用Bert (huggingface)分类器解决tf.keras模型的问题_无分类层的huggingface变压器bert模型_由于内存问题，如何保存仅与预训练的bert模型的分类器层相关的参数？ - 腾讯云开发者社区

overfitting、bert、huggingface

我正在使用Huggingface的TFBertForSequenceClassification进行多标签tweets分类。在训练过程中，模型存档精度较好，但验证精度较差。我试着用一些辍学来解决过度适应的问题，但是表现仍然很差。模式如下： # Get and configure the BERT model config = BertConfig.from_pretrained("bert-base-uncased", hidden_dropout_prob=0.5, num_labels=13) bert_model = TFBertForSequenceClassifica

浏览 0提问于2020-06-23得票数 1

1回答

下载模型时发生的类'src.transformers.modeling_tf_bert.TFBertMainLayer'>已经注册到< Custom>TFBertMainLayer

python、tensorflow、huggingface-transformers

我一直在尝试使用预训练模型。使用collab模板中默认的所有内容，使用从huggingface/pytorch-transformers到bert-base-uncased的torch.hub.load()作为“模型” 代码示例 import torch model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-uncased') # Download model and configuration from S3 and cache. 我看

浏览 4提问于2020-04-23得票数 1

1回答

使用BERT模型检索“相关令牌”(已经过微调)

keyword、bert-language-model、huggingface-transformers、attention-model

我已经针对分类任务对BERT模型(使用huggingface库)进行了微调，以预测两种类型的帖子类别(例如，1和0 )。但是，我需要检索被预测为类别1的文档的“相关令牌”(例如)。我知道，一旦我用BERT模型将所有帖子标记为1(例如)，我就可以使用传统的TF-IDF方法。但我有以下问题:有没有可能用经过微调的BERT模型的架构来完成同样的任务？我的意思是，访问编码器的最后一层(预测层)，并使用注意力机制，获得使te预测为1的“相关”标记(例如)？这样做有可能吗？有没有人知道类似的教程？

浏览 19提问于2021-03-30得票数 0

1回答

BERT嵌入SPARKNLP或BERT在拥抱面标记分类中的应用

nlp、bert-language-model、huggingface-transformers、johnsnowlabs-spark-nlp

目前，我的工作是生产一个新的模式在星火。我有一个当前的实现，即在TokenClassification头上使用Huggingface，但是由于性能有点慢，而且代价很高，所以我试图找到优化的方法。我检查了SPARKNLP实现，该实现缺乏经过预先培训的DISTILBERT，我是否认为有一种不同的方法，因此出现了一些有关这方面的问题： Huggingface使用整个BERT模型，并为令牌分类添加了一个头。这与获取BERT嵌入并将它们提供给另一个NN相同吗？我这样问是因为这是SPARKNLP方法，它帮助获取这些嵌入并将其用作另一个复杂NN的特性。这难道不是失去了伯特内部的一些知识吗？，SPARKNL

浏览 2提问于2020-10-30得票数 2

回答已采纳

1回答

为什么TFBertForSequenceClassification.from_pretrained('bert-base-chinese')不能使用？

huggingface-transformers

我想用huggingface做中文文本相似度： tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = TFBertForSequenceClassification.from_pretrained('bert-base-chinese') 它不工作，系统报告错误： Some weights of the model checkpoint at bert-base-chinese were not used when initializing TFBertForSequenc

浏览 460提问于2020-07-13得票数 1

1回答

使用BERT的文本分类-如何处理拼写错误的单词

pytorch、text-classification、huggingface-transformers、bert-language-model、misspelling

我不确定这是否是提交这类问题的最佳地点，也许CrossValdation会更好。我正在研究一个文本多类分类问题。我构建了一个基于BERT概念的模型，并在PyTorch (huggingface transformer library)中实现。该模型执行得很好，除非输入句子有OCR错误或等效地拼写错误。例如，如果输入是"NALIBU DRINK“，Bert标记器会生成'na'，'##lib'，'##u'，'drink‘，模型的预测是完全错误的。另一方面，如果我纠正了第一个字符，所以我的输入是"MALIBU DRINK&

浏览 38提问于2020-04-04得票数 0

1回答

如何在Huggingface BERT模型之上添加LSTM层

nlp、pytorch、recurrent-neural-network、bert-language-model、huggingface-transformers

我正在做一个二进制分类任务，我想尝试在huggingface BERT模型的最后一个隐藏层之上添加lstm层，但是，我无法到达最后一个隐藏层。有没有可能将BERT与LSTM结合起来？ tokenizer = BertTokenizer.from_pretrained(model_path) tain_inputs, train_labels, train_masks = data_prepare_BERT( train_file, lab2ind, tokenizer, content_col, label_col, max_seq_length) validation_i

浏览 156提问于2021-01-18得票数 1

1回答

Rasa与HuggingFace的集成管道

huggingface-transformers、rasa

我正在尝试将Rasa配置为使用在HuggingFace预先训练好的模型。这是我的设置 language: fr pipeline: - name: LanguageModelTokenizer - name: LanguageModelFeaturizer model_name: "bert" model_weights: "setu4993/LaBSE" cache_dir: "/rasa/model" 我运行“rasa train”后，它显示OSError:找不到型号名称“setu4993

浏览 1提问于2021-04-08得票数 0

1回答

如何在训练过程中保持模型固定？

python、deep-learning、nlp、pytorch、huggingface-transformers

我正在尝试实现一个模型，该模型使用来自不同数据集的多个预训练BERT模型的编码，并使用完全连接层获得组合表示。在这方面，我希望BERT模型应该保持固定，只有完全连接的层应该得到训练。在huggingface-transformers中实现这一点是可能的吗？我没有看到任何允许我这样做的标志。 PS:我不想把每个BERT模型的输入编码都去掉，然后把它们当作输入。

浏览 29提问于2020-04-28得票数 0

回答已采纳

1回答

在Colab TPU上运行Pytorch堆叠模型

pytorch、google-colaboratory、huggingface-transformers、tpu、google-cloud-tpu

我正试着在Colab多核TPU上运行我的模型，但我真的不知道怎么做。我尝试了，但我得到了一些错误，我不能修复它，但我认为可能有更简单的等待来完成它。关于我的模型： class BERTModel(nn.Module): def __init__(self,...): super().__init__() if ...: self.bert_model = XLMRobertaModel.from_pretrained(...) # huggingface XLM-R elif ...:

浏览 2提问于2020-12-03得票数 1

2回答

“拥抱脸”模型的预训练层被冻结了吗？

nlp、pytorch、huggingface-transformers、bert-language-model

我使用了Huggingface中的以下分类模型： model = AutoModelForSequenceClassification.from_pretrained("dbmdz/bert-base-german-cased", num_labels=2).to(device) 据我所知，这增加了一个密集的一层结束前训练的模型，其中有两个输出节点。但是在那之前所有的预训练层都被冻结了吗？或者它们在微调时也是更新的？我在文档里找不到这方面的信息..。所以我还需要做这样的事吗？ for param in model.bert.parameters(): param.re

浏览 9提问于2022-07-04得票数 1

回答已采纳

1回答

EncoderDecoderModel转换解码器的分类器层

python、pytorch、huggingface-transformers

我正在尝试使用序列到序列模型进行命名实体识别.我的输出是简单的IOB标记，因此我只想预测每个令牌(IOB)的3个标签的概率。我正在尝试使用HuggingFace实现EncoderDecoderModel --使用DistilBert作为编码器，以BertForTokenClassification作为解码器。首先，我导入我的编码器和解码器： encoder = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased") encoder.save_pretrained("E

浏览 2提问于2021-10-25得票数 1

回答已采纳

1回答

下载拥抱脸模型后，烧瓶应用程序继续重新启动

python、huggingface-transformers

在我的对接容器中，我有一个酒瓶应用程序( nginx和uwsgi后面)，它实例化了一个来自拥抱脸/变压器的模型。由于某种原因，在下载模型之后，应用程序会不断地重新启动。应用程序： ### app.py server = Flask(__name__) cors = CORS(server) server.config["CORS_HEADERS"] = "Content-Type" log.info("Instantiating model") model = AutoModelForTokenClassification.from_pretr

浏览 2提问于2020-09-29得票数 0

回答已采纳

2回答

伯特自我注意层

nlp、bert

我正在尝试为基本模型使用第一个单独的BertSelfAttention层，但我从torch.hub加载的模型似乎与hugginface transformers.models.bert.modeling_bert中使用的模型不同： import torch, transformers tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True) torch_model = torch.hub.load('huggingface/pytorc

浏览 0提问于2021-05-05得票数 0

回答已采纳

2回答

具有保存和加载tensorflow模型的Isues，该模型使用拥抱脸部变压器模型作为其第一层

tensorflow、machine-learning、keras、huggingface-transformers

嗨，我在保存和加载一个tensorflow模型时遇到了一些严重的问题，这个模型结合了人脸转换器和一些自定义的层来进行分类。我使用的是最新的Huggingface transformers keras版本。其思想是使用distilbert提取特征，然后通过CNN运行特征进行分类和提取。只要得到正确的分类，我已经做好了所有的工作。问题是在训练后保存模型，然后再次加载模型。我使用的是tensorflow keras和tensorflow版本2.2 以下是设计模型、训练模型、评估模型，然后保存和加载模型的代码 bert_config = DistilBertConfig(dropout=0

浏览 31提问于2020-05-17得票数 3

1回答

错误：'utf-8‘编解码器无法解码7526-7527位置的字节:无效的连续字节

python、utf-8、load

我在直接下载Bert模型(公司的隐私政策)时遇到连接问题，所以我在https://github.com/huggingface/transformers/blob/master/src/transformers/tokenization_bert.py下载了BertTokenizer 并得到了我的模型令牌器的txt文件。“bert-base-多语言大小写”："https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt"，但是当我导入记号赋予器模型时，得到

浏览 13提问于2020-01-13得票数 0

回答已采纳

2回答

在本地下载预先训练好的句子转换器模型

word-embedding、bert-language-model、huggingface-tokenizers、sentence-transformers

我正在使用SentenceTransformers库(这里：)来使用预训练模型bert-base-nli-mean tokens创建句子的嵌入。我有一个应用程序将部署到不能访问互联网的设备上。这里，已经回答了如何保存模型。然而，我被困在从本地保存的路径加载保存的模型。当我尝试使用上面提到的技术保存模型时，输出文件如下： ('/bert-base-nli-mean-tokens/tokenizer_config.json', '/bert-base-nli-mean-tokens/special_tokens_map.json', '/bert-ba

浏览 197提问于2020-12-23得票数 5

1回答

针对特定于上下文的嵌入角色微调BERT模型

python、nlp、bert-language-model

我正在试图找到关于如何训练BERT模型的信息，可能是从Huggingface Transformers库中，以便嵌入它的输出与我正在使用的文本的上下文更紧密地相关。然而，我能找到的所有例子都是关于为另一个任务微调模型的，比如classification。有没有人碰巧有一个BERT微调模型的例子，用于掩蔽标记或下一句预测，输出另一个根据上下文微调的原始BERT模型？谢谢!

浏览 15提问于2021-04-17得票数 3

回答已采纳

1回答

BERT编码器-解码器文本生成的限制词汇

nlp、huggingface-transformers、bert-language-model、seq2seq、sentence-transformers

在Huggingface BERT编解码器模型中，有没有办法限制解码器的词汇量？我想强制解码器在生成文本时从较小的词汇表中进行选择，而不是BERT的整个约30K的词汇表。

浏览 94提问于2021-10-06得票数 3

1回答

如何在HuggingFace变压器库中获取预训练的BERT模型的中间层输出？

tensorflow、keras、tensorflow2.0、huggingface-transformers、bert-language-model

(我正在学习关于BERT word嵌入的 author教程，在本教程中，作者访问了BERT模型的中间层。) 我想要的是使用HuggingFace的Transformers库访问TensorFlow2中BERT模型的单个输入令牌的最后4层。因为每个层输出一个长度为768的向量，所以最后4个层的形状为4*768=3072 (对于每个令牌)。如何在TF/keras/TF2中实现这一点，以获得输入令牌的预训练模型的中间层？(稍后，我将尝试为句子中的每个令牌获取令牌，但现在一个令牌就足够了)。我正在使用HuggingFace的BERT模型： !pip install transformers fro

浏览 8提问于2020-04-27得票数 7

回答已采纳

1回答

问题的建立--基于曲面权值的流模型

python、tensorflow、keras、tensorflow2.0、huggingface-transformers

我需要使用预先训练的伯特模型('dbmdz/bert-base-italian-xxl-cased')，它来自Tensorflow的Huggingface (在链接上)。在网站上看到这篇文章之后，目前只有PyTorch-变压器兼容的重量是可用的。如果您需要访问TensorFlow检查点，请提出一个问题！我提出了这个问题，并立即向我提供了一个下载链接，其中包含以下文件。这些文件如下： $ ls bert-base-italian-xxl-cased/ config.json model.ckpt.index

浏览 2提问于2021-08-25得票数 0

回答已采纳

1回答

拥抱面模型的OSError

python、deep-learning、nlp、huggingface-transformers、bert-language-model

我正在尝试使用拥抱面模型()，但是在加载令牌程序:代码时会出现错误： from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("CAMeL-Lab/bert-base-arabic-camelbert-ca") model = AutoModelForMaskedLM.from_pretrained("CAMeL-Lab/bert-base-arabic-camelbert-ca") 错误： OSError: Ca

浏览 19提问于2022-03-15得票数 0

1回答

Hugginface Tokenizer -找出哪些文档被截断

python、machine-learning、huggingface-transformers、huggingface-tokenizers、huggingface

我正在使用Huggingface的转换库来创建一个基于Bert的文本分类模型。为此，我对文档进行了标记，并将截断设置为true，因为文档的长度超过了允许的长度(512)。我如何知道有多少文档实际上被截断了？我认为长度(512)不是文档的字符或单词计数，因为Tokenizer准备文档作为模型的输入。文档发生了什么变化，是否有一种直接的方式来检查它是否被截断？这是我用来标记文档的代码。 tokenizer = AutoTokenizer.from_pretrained("distilbert-base-multilingual-cased") model = BertForS

浏览 3提问于2022-05-16得票数 1

回答已采纳

1回答

AttributeError:层tf_bert_model没有入站节点

python、tensorflow、keras、huggingface-transformers

我有一个深度学习模型，它使用来自Huggingface库(TF=2.0，Transformers=2.8.0)的伯特层。该模型包括: BERT嵌入，->注意，->软件。此外，我正在使用tf.keras.callbacks.ModelCheckpoint保存最好的模型在培训期间。我正试着把模型切成薄片来获得注意力的权重。我的问题是，如果在使用output1 = model.layers[3].output加载保存的模型之后尝试访问任何层的输出，则会得到以下错误： AttributeError: Layer tf_bert_model没有入站节点。但是，如果我在原始模型上做

浏览 2提问于2020-08-06得票数 1

2回答

无法从EC2实例连接到Huggingface

amazon-web-services、amazon-ec2、huggingface-tokenizers

我正在EC2实例中运行python代码，在该实例中，我使用from_pretrained()方法加载一个Huggingface模型。我知道错误了 OSError: Couldn't reach server at 'https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-config.json' to download pretrained model configuration file. 同时尝试初始化读取器。为了克服这个问题，我手动下载了该文件，并提供了本地JSON路径。这很好，但

浏览 4提问于2021-07-13得票数 1

2回答

具有多个bert输入的SMOTE

python、keras、scikit-learn、huggingface-transformers、smote

我正在使用Keras和Bert (HuggingFace)构建一个多类文本分类模型，但是我有一个非常不平衡的数据集。我使用了Sklearn的SMOTE来为欠平衡的类生成额外的样本(总共有45个)，当我使用来自Bert Tokenizer的输入ids时，它工作得很好。但是，我也希望能够使用smote作为输入掩码I，以便允许模型确定填充值的位置。我的问题是如何在输入ids和掩码ids中使用smote？到目前为止，我已经完成了以下操作，并且模型没有抱怨，但我不确定重放掩码是否与重放的输入ids行匹配。Smote需要两个输入、输入和标签，所以我用相同的随机状态复制了这个过程，只返回了所需的元素：

浏览 10提问于2020-05-13得票数 4

回答已采纳

1回答

我已经下载了伯特预训过的模特“伯特-基地”。我无法在BertTokenizer的帮助下加载模型

nlp、pytorch、bert-language-model、huggingface-transformers、huggingface-tokenizers

我已经下载了伯特预训练过的模型‘伯特-基地-大小写。我无法在BertTokenizer的帮助下加载模型。我正在尝试伯特令牌。在伯特预训练-模型文件夹，我有config.json和pytorch_model.bin。 tokenizer = BertTokenizer.from_pretrained(r'C:\Downloads\bert-pretrained-model') 我面临的错误就像 OSError Traceback (most recent call last) <ipython-input-

浏览 4提问于2021-03-04得票数 1

1回答

如何使用Huggingface BERT模型来输入CNN的二进制分类器？

python、pytorch、huggingface-transformers

我对如何使用huggingface transformers输出来训练一个简单的语言二进制分类器模型感到有点困惑，该模型可以预测阿尔伯特·爱因斯坦是否说过一句话。 from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") inputs = ["Hello World",

浏览 29提问于2021-08-26得票数 1

1回答

毕氏交叉熵输入维数

python、pytorch、python-3.7、cross-entropy、huggingface-transformers

我正在尝试开发一个二进制分类器，它包含Huggingface的BertModel和Py手电筒。分类器模块如下所示： class SSTClassifierModel(nn.Module): def __init__(self, num_classes = 2, hidden_size = 768): super(SSTClassifierModel, self).__init__() self.number_of_classes = num_classes self.dropout = nn.Dropout(0.01) self.hidden_size =

浏览 2提问于2020-04-03得票数 0

回答已采纳

1回答

有没有可能在LayoutLM的背后用MobileBERT代替BERT？

nlp、bert-language-model、huggingface-transformers

LayoutLM建立在BERT之上作为基准，但我想用BERT代替MobileBERT，因为BERT太大了。不幸的是，Huggingface Transformers库没有为您提供更改LayoutLM基线模型的选项。我该怎么用BERT换成MobileBERT呢？我知道他们有非常不同的配置。我知道这是一个非常广泛的问题和广泛的主题，但我在网上找不到任何关于它的东西。我该如何着手，我应该从哪里开始呢？

浏览 2提问于2021-07-01得票数 0

1回答

由于代理问题，Hugginface Bert Tokenizer从源构建

python、tokenize、huggingface-transformers

我遇到了类似的东西：BERT tokenizer & model download 上面的链接是关于下载Bert模型本身的，但我只想使用Bert Tokenizer。通常我可以这样做： from transformers import BertTokenizer bert_tokenizer_en = BertTokenizer.from_pretrained("bert-base-uncased") bert_tokenizer_de=BertTokenizer.from_pretrained("bert-base-german-cased") 但

浏览 125提问于2021-10-18得票数 0

回答已采纳

2回答

BertModel转换器输出字符串而不是张量

bert-language-model、huggingface-transformers、huggingface-tokenizers

我正在遵循this教程，该教程使用BERT和huggingface库编写了一个情感分析分类器，并且我有一个非常奇怪的行为。在使用示例文本尝试BERT模型时，我得到了一个字符串，而不是隐藏状态。这是我使用的代码： import transformers from transformers import BertModel, BertTokenizer print(transformers.__version__) PRE_TRAINED_MODEL_NAME = 'bert-base-cased' PATH_OF_CACHE = "/home/mwon/data-m

浏览 133提问于2020-12-04得票数 9

回答已采纳

1回答

ValueError:如果选择“bert”模型，则应该使用预处理_mode= 'bert‘，反之亦然

python、machine-learning、nlp、bert-language-model、ktrain

我有个问题。我得到了下面的错误ValueError: if 'bert' is selected model, then preprocess_mode='bert' should be used and vice versa。但我看不出有什么问题。我的密码怎么了？ %%time #Importing import ktrain from ktrain import text (x_train_bert, y_train_bert), (x_val_bert, y_val_bert), preproc = text.texts_from_array(

浏览 8提问于2022-07-04得票数 0

1回答

无分类层的huggingface变压器bert模型

pytorch、huggingface-transformers、bert-language-model

我想做一个来自vgg16和bert的联合嵌入来进行分类。 huggingface transformers bert的问题是它有一个具有num_labels维度的分类层。但是，我需要来自BertPooler (768维)的输出，我将使用它作为扩展模型的文本嵌入。 from transformers import BertForSequenceClassification model = BertForSequenceClassification.from_pretrained('bert-base-uncased') 这提供了以下模型： BertForSequenceCla

浏览 16提问于2020-06-07得票数 1

回答已采纳

1回答

通过Huggingface转换器更新BERT模型

tensorflow、nlp、pytorch、spacy、huggingface-transformers

我正在尝试使用内部语料库更新预训练的BERT模型。我看过Huggingface的transformer文档，你会发现我有点困惑，below.My的目标是使用余弦距离计算句子之间的简单相似度，但我需要为我的特定用例更新预先训练的模型。如果你看一下下面的代码，这正是Huggingface文档中的代码。我试图“重新训练”或更新模型，我假设special_token_1和special_token_2表示来自我的“内部”数据或语料库的“新句子”。这是正确的吗？总而言之，我喜欢已经预训练的BERT模型，但我想使用另一个内部数据集来更新或重新训练它。任何线索都将不胜感激。 import tensorfl

浏览 53提问于2019-10-30得票数 9

1回答

具有dropout设置的Transformers预训练模型

python、bert-language-model、huggingface-transformers

我正在尝试使用transformer的huggingface预训练模型bert-base-uncased，但我想增加丢失率。在from_pretrained方法中没有提到这一点，但colab运行了下面的对象实例化，没有任何问题。我在classtransformers.BertConfig文档中看到这些dropout参数。我是否以正确的方式使用bert-base-uncased并更改dropout？ model = BertForSequenceClassification.from_pretrained( pretrained_model_name_or_path='

浏览 153提问于2020-11-22得票数 3

1回答

未从transformers中指定时，是随机选择的预训练模型

python、nlp、huggingface-transformers、nlg

我正在尝试使用huggingface的模型来实现一个QA系统。我不理解的一件事是，当我没有具体说明我正在使用哪个预先训练好的模型进行问答时，这个模型是随机选择的吗？ from transformers import pipeline # Allocate a pipeline for question-answering question_answerer = pipeline('question-answering') question_answerer({ 'question': 'What is the name of the r

浏览 19提问于2021-02-03得票数 1

回答已采纳

1回答

如何混合tensorflow keras模型和转换器

python、tensorflow、keras、nlp、huggingface-transformers

我正在尝试从Huggingface的transformers库中导入一个预训练的模型，并使用tensorflow keras对其进行几层扩展以进行分类。当我直接使用transformers模型(方法1)时，该模型训练良好，在1个时期后达到0.93的验证精度。但是，当尝试将该模型用作tf.keras模型中的层时(方法2)，该模型无法达到0.32以上的精度。据我所知，根据文档，这两种方法应该是等效的。我的目标是让方法2工作，这样我就可以向它添加更多的层，而不是直接使用Huggingface的分类器头生成的logits，但我被困在这个阶段。 import tensorflow as tf fro

浏览 29提问于2020-12-05得票数 2

1回答

BertModel和BertForMaskedLM权值计数

machine-learning、deep-learning、nlp、pytorch、bert-language-model

我想了解BertForMaskedLM模型，在huggingface代码中，BertForMaskedLM是一个bert模型，它的形状有两个线性层(输入768，输出768)和(输入768，输出30522)。所有权重的计数将是BertModel + 768 * 768 + 768 * 30522的权重，但当我检查数字时不匹配。 from transformers import BertModel, BertForMaskedLM import torch bertmodel = BertModel.from_pretrained('bert-base-uncased') ber

浏览 8提问于2021-12-08得票数 1

回答已采纳

1回答

ValueError:不能重塑张量(伯特-转移学习)

python、machine-learning、keras、tensorflow2.0

我正在使用HuggingFace的变压器库，使用Keras和BERT构建一个多类文本分类模型。为了将输入转换成所需的bert格式，我使用了在BertTokenizer类中找到的BertTokenizer方法数据是每个特征的句子段落，只有一个标签(总共有45个标签)。转换输入的代码是: def create_input_array(df, tokenizer): sentences = df.text.values labels = df.label.values input_ids = [] attention_masks = [] token_type_ids = [] # For

浏览 3提问于2020-04-10得票数 3

回答已采纳

1回答

如何在单词嵌入模型BERT上使用自己的语料库

word-embedding、bert-language-model、huggingface-transformers

我正在尝试使用google的单词嵌入模型BERT创建一个问答模型。我是个新手，我真的很想使用我自己的语料库进行培训。一开始，我使用了huggingface site中的一个例子，它运行良好： from transformers import pipeline qa_pipeline = pipeline( "question-answering", model="henryk/bert-base-multilingual-cased-finetuned-dutch-squad2", tokenizer="henryk/bert

浏览 46提问于2020-12-15得票数 1

回答已采纳

1回答

简捷的拥抱转储式变压器

python、machine-learning、google-colaboratory、gdrive

我有个问题要放弃一个简单的变形模型。我训练了一个模型，而不是用joblib转储它： dump(model, 'Simple_transfomers.joblib') 当我在另一个脚本中加载它时，我使用： files = glob.glob('Simple_transfomers.joblib') model = ClassificationModel( "bert", "models/files" ) 甚至尝试过其他方法： model = ClassificationModel( "bert"

浏览 6提问于2021-08-18得票数 0

3回答

Huggingface AutoTokenizer无法从本地路径加载

huggingface-transformers

我正在尝试运行huggingface示例中的语言模型微调脚本(run_language_modeling.py)，使用我自己的标记器(刚刚添加了几个标记符，参见注释)。加载令牌器时出现问题。我认为问题出在AutoTokenizer.from_pretrained('local/path/to/directory'). 代码： from transformers import * tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') # special_tokens = ['<

浏览 42提问于2020-05-22得票数 2

3回答

如何获得huggingface.transformers训练器的每个历元或步长的精度？

python、tensorflow、logging、huggingface-transformers

我正在使用BertForSequenceClassification.from_pretrained("bert-base-uncased")模型的huggingface训练器。简而言之，它看起来像这样： model = BertForSequenceClassification.from_pretrained("bert-base-uncased") tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") training_args = TrainingArguments

浏览 11提问于2021-05-09得票数 3

1回答

对HuggingFace模型使用AllenNLP解释器

nlp、huggingface-transformers、allennlp

我想使用AllenNLP解释(代码+演示)与HuggingFace (electra base鉴别器)训练的PyTorch分类模型。然而，我并不清楚如何转换我的模型，并在本地allen-nlp演示服务器中使用它。我应该如何继续？提前感谢

浏览 3提问于2021-04-22得票数 0

2回答

用BERT检测语法错误

nlp、bert、grammar-inference

我们对bert-base-uncased( BERT )模型和CoLA数据集进行了精细调整，以完成句子分类任务.数据集是有语法错误和没有语法错误的句子的组合。然后，再训练的模型被用来识别有或没有错误的句子。除了建立分类器外，我们还可以使用BERT的其他方法吗？

浏览 0提问于2021-01-06得票数 3

1回答

如何在HuggingFace中拼接特殊标记和单词的单词嵌入？

bert-language-model、huggingface-transformers、named-entity-recognition

我试图给Huggingface预训练的BERT记号赋值器增加一个额外的维度。额外的列表示额外的标签。例如，如果单词“dog”的原始嵌入是1,1,1,1,1,1,1，1，1，1，1，那么我可能会添加一个索引为2的特殊列来表示“名词”。因此，新的嵌入变为1，1，1，1，1，1，2。然后，我将把新的输入1，1，1，1，1，1，2输入到Bert模型中。我如何在Huggingface中做到这一点？有一个叫做tokenizer.add_special_tokens的东西，它用新的标记扩展了原来的词汇表。但是，我希望将原始词汇表的嵌入与记号赋予器的嵌入连接起来。例如，我希望Bert模型通过将狗的嵌入与名词

浏览 3提问于2021-06-13得票数 0

1回答

Transformers管道模型目录

python、python-3.x、pipeline、bert-language-model、huggingface-transformers

我正在使用Huggingface的Transformers管道函数下载模型和记号赋值器，我的Windows PC下载了它们，但我不知道它们存储在PC上的什么位置。你能帮帮我吗？ ? from transformers import pipeline qa_pipeline = pipeline( "question-answering", model="mrm8488/bert-multi-cased-finetuned-xquadv1", tokenizer="mrm8488/bert-multi-cased-finet

浏览 17提问于2020-10-12得票数 1

1回答

无位置嵌入的伯特

huggingface-transformers、bert-language-model、word-embedding

我试图在HuggingFace中构建一个管道，它不会使用BERT中的位置嵌入，以便研究特定用例的嵌入作用。我已经查看了文档和代码，但是我还没有找到实现这样一个模型的方法。我是否需要修改伯特的源代码，还是有一个配置我可以摆弄？

浏览 6提问于2022-10-10得票数 0

回答已采纳

1回答

如何在本地下载BERT模型，不使用包？

python、nlp、huggingface-transformers

公司防火墙似乎阻止我只使用 model = AutoModel.from_pretrained("sentence-transformers/bert-base-nli-stsb-mean-tokens") 因此，我需要在本地下载此模型，然后将其读取到Python中。找不到直接的AWS链接，似乎通常是这种形式:但不起作用 https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-nli-stsb-mean-tokens-pytorch_model.bin 尝试了这些类似的问题/解决方案here，但不起作用，因为

浏览 57提问于2021-04-14得票数 0