bert预训练模型_bert预训练模型下载_在预训练的bert模型中冻结图层 - 腾讯云开发者社区

、、、、

我是新来伯特的我有一个amazon评论数据集，我想要根据评论预测星级我知道我可以使用预先训练好的bert模型，如here所示但我想在我自己的数据集上训练bert模型。这就是here正在做的事情吗？我是否可以在任何数据集的预训练模型上应用这种“微调”，以获得更准确的结果，或者我是否必须做一些其他事情来从头开始训练模型如果我确实想从头开始训练一个模型，我应该从哪里开始呢？

浏览 61提问于2021-10-03得票数 0

1回答

针对不同语言的特定领域微调BERT？

、、、

我想对一个预先训练好的BERT模型进行微调。但是，我的任务使用特定领域内的数据(比如生物医学数据)。此外，我的数据也是一种不同于英语的语言(比如荷兰语)。现在，我可以微调荷兰bert-base-荷兰案例预训练模型。然而，我该如何对生物医学BERT模型进行微调，比如BioBERT，它属于正确的领域，但语言错误？我曾经考虑过使用NMT，但我不认为它是可行的，也不值得为此付出努力。如果我在没有对模型进行任何更改的情况下进行微调，我担心模型不会很好地学习任务，因为它是在完全不同的语言上预先训练的。

浏览 4提问于2021-01-28得票数 2

1回答

为什么BERT模型必须保持10%的掩码标记不变？

、、

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

浏览 151提问于2020-09-23得票数 2

回答已采纳

2回答

在小型定制语料库上预训练语言模型

、、、、

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：使用经过预先训练的伯特装置。从我的新文本中获取新的标记，并将它们添加到现有的经过预先培训的语言模型中(例如，vanilla BERT)。使用组合标记器在自定义语料库上重新训练预训练的BERT模型。在小型定制语料库中生成类似于文本的文本。这听起来耳熟吗？抱着脸

浏览 5提问于2020-04-24得票数 7

1回答

通过TF-hub导入后冻结BERT层并对其进行训练？

、

我将在这里描述我的意图。我想通过tf-hub函数hub.module(bert_url，trainable = True)导入BERT预训练模型，并将其用于文本分类任务。我计划使用一个大型语料库来微调BERT的权重，以及几个输入为BERT输出的密集层。然后我想冻结BERT的层，只训练BERT之后的致密层。我怎样才能有效地做到这一点呢？

浏览 25提问于2020-03-29得票数 0

1回答

通过Huggingface转换器更新BERT模型

、、、、

我正在尝试使用内部语料库更新预训练的BERT模型。我看过Huggingface的transformer文档，你会发现我有点困惑，below.My的目标是使用余弦距离计算句子之间的简单相似度，但我需要为我的特定用例更新预先训练的模型。如果你看一下下面的代码，这正是Huggingface文档中的代码。我试图“重新训练”或更新模型，我假设special_token_1和special_token_2表示来自我的“内部”数据或语料库的“新句子”。这是正确的吗？总而言之，我喜欢已经预训练的BERT模型，但我想使用另一个内部数据集来更新或重新训练它。任何线索都将不胜感激。 import tensorfl

浏览 53提问于2019-10-30得票数 9

3回答

如何阻止BERT将特定的单词拆分成单词片段

、、、、

我正在使用预训练的BERT模型将文本标记化为有意义的标记。然而，文本中有许多特定的单词，我不希望BERT模型将它们分成几个单词。有什么解决方案吗？例如： tokenizer = BertTokenizer('bert-base-uncased-vocab.txt') tokens = tokenizer.tokenize("metastasis") 像这样创建令牌： ['meta', '##sta', '##sis'] 但是，我希望将整个单词保留为一个标记，如下所示： ['metastasis']

浏览 0提问于2020-05-29得票数 4

1回答

bert中的反向传播

、、

我想知道，当人们说预训练的bert模型时，是否只训练了最终的分类神经网络或通过反向传播和分类神经网络，transformer内部是否有任何更新

浏览 121提问于2021-02-04得票数 1

回答已采纳

1回答

用于文本分类的预训练BERT库

、、

我有一个推文语料库，我正在尝试使用BERT进行分类。我已经使用我的语料库成功地预先训练了BERT，并且它已经生成了检查点文件。现在我需要使用这个新的训练模型，并向其添加更多的层。我尝试使用keras_bert中的"load_trained_model_from_checkpoint“函数，但它失败了，并出现错误"cls/predictions/transform/dense/kernel not found in checkpoint”。有没有人能帮我修复这个bug。谢谢

浏览 9提问于2020-03-05得票数 0

2回答

用BERT检测语法错误

、、

我们对bert-base-uncased( BERT )模型和CoLA数据集进行了精细调整，以完成句子分类任务.数据集是有语法错误和没有语法错误的句子的组合。然后，再训练的模型被用来识别有或没有错误的句子。除了建立分类器外，我们还可以使用BERT的其他方法吗？

浏览 0提问于2021-01-06得票数 3

1回答

如何更改transformers.bert的最大序列长度？

、、

我下载了基于bert的预训练模型。我编辑config.json (从512到256) "max_position_embeddings": 256, 然后我想使用bert模型， from transformers import BertForSequenceClassification model = BertForSequenceClassification.from_pretrained( MODEL_PATH, num_labels = 2, # The number of output labels--2 for binary classifica

浏览 260提问于2020-10-23得票数 0

1回答

无法从tensorflow检查点读取finetuning

、、、

我正在尝试使用一个预先训练的伯特模型，用SST2数据处理器进行微调。但是当我给出预训练模型的检查点时，它显示的是“在检查点中找不到密钥output_bias”。我想这可能是因为预先训练过的伯特模型检查站出了差错。所以我又做了一次训练。但是，我仍然面临着同样的问题。 TASK = 'STS' #@param {type:\"string\"} TASK_DATA_DIR = 'glue_data/STS-B/'# + TASK output_dir = 'trained_model/observation' tf.gfile.M

浏览 0提问于2019-08-19得票数 1

2回答

如何从零开始培训伯特在传销和NSP的新领域？

、、、、

我正在尝试使用我自己的数据集使用HuggingFace库从零开始训练伯特模型。我想训练模型的方式，它有确切的结构，原来的伯特模型。在最初的文章中，它指出：“BERT被训练完成两项任务:预测随机蒙面标记(MLM)和预测两个句子是否相互跟随(NSP)。SCIBERT采用与BERT相同的体系结构，但却接受了科学文本方面的预先培训。“ 我正试着理解如何像上面这样在两个任务上训练模型。目前，我将模型初始化如下： from transformers import BertForMaskedLM model = BertForMaskedLM(config=config) 然而，这将只是为传销，而不是NS

浏览 1提问于2021-01-09得票数 9

回答已采纳

1回答

仅针对嵌入的BERT的无监督微调？

、、

我想在未标记的数据上对特定领域的BERT进行微调，并让输出层检查它们之间的相似性。我该怎么做呢？我是否需要首先微调分类器任务(或问题答案等)。然后拿到嵌入物？或者我可以只使用预训练的Bert模型，而不使用任务，并使用我自己的数据进行微调？

浏览 2提问于2020-04-22得票数 3

2回答

使用MLM对语言模型进行持续的预训练与微调

、、、、

我有一些定制的数据，我想使用进一步培训的伯特模型。到目前为止，我已经尝试了以下两种方法： BertForPreTraining model)Starting 从一个预先培训的BERT检查点开始，并继续使用蒙面语言建模(MLM) +下一句预测(NSP)头进行预培训(例如使用带有MLM目标的预先训练的BERT模型(例如，假设我们不需要NSP作为培训前部分的BertForMaskedLM模型)。但我仍然感到困惑的是，如果使用BertForPreTraining或BertForMaskedLM真的对伯特进行持续的预培训，或者这只是两个微调模型，分别使用MLM+NSP和MLM对伯特进行微调。在使用ML

浏览 5提问于2021-07-20得票数 5

回答已采纳

1回答

将BERT模型作为泡菜文件保存在磁盘上

、

我已经设法让伯特模型工作在约翰斯诺实验室-火花-nlp库。我能够将“经过训练的模型”保存在磁盘上，如下所示。拟合模型 df_bert_trained = bert_pipeline.fit(textRDD) df_bert=df_bert_trained.transform(textRDD) 保存模型 df_bert_trained.write().overwrite().save("/home/XX/XX/trained_model") 然而，首先，根据这里的文档，可以将模型加载为 EmbeddingsHelper.load(path, spark, format, r

浏览 2提问于2020-01-23得票数 1

1回答

如何从预先训练的模型加载保存的记号赋予器

、、

我使用huggingface transformer在Pytorch中微调了一个预先训练好的BERT模型。所有的训练/验证都在云中的GPU上完成。在训练结束时，我保存了模型和标记器，如下所示： best_model.save_pretrained('./saved_model/') tokenizer.save_pretrained('./saved_model/') 这将在saved_model目录中创建以下文件： config.json added_token.json special_tokens_map.json tokenizer_config.j

浏览 19提问于2019-10-16得票数 8

回答已采纳

2回答

如何用pytorch实现SciBERT；加载时出错

、、、、

我正在尝试使用SciBERT预训练的模型，即： !pip install pytorch-pretrained-bert import torch from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM import logging import matplotlib.pyplot as plt tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

浏览 11提问于2019-10-12得票数 0

1回答

BERT和GPT2的主要区别是什么？

、

我读了很多文章，人们都说BERT对NLU有好处，而GPT对NLG有好处。但它们在结构上的关键区别在于是否在自我注意中添加了掩膜，并以不同的方式训练了模型。从下面的代码中，如果我理解正确的话，我们可以自由选择是否添加注意掩码。那么我能否得出这样的结论：“BERT的预训练参数对NLU有好处”，“GPT2的预训练参数对NLG有好处”？或者，这两者之间还有什么其他关键的区别，使人们得出我在开始时提到的结论？

浏览 8提问于2021-03-29得票数 0

1回答

在使用bert模型作为嵌入向量时，我需要在自己的数据上进行训练吗？

、、

当我尝试huggingface模型时，它给出了以下错误信息： from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") inputs = tokenizer("Hello world!", return_tensors="pt") outputs = mod

浏览 1提问于2021-05-19得票数 0

1回答

spark nlp中的多语言bert

、、

我想知道是否有预训练的多语种Bert在sparknlp中可用？如你所知，Bert经过了109种语言的预训练。我想知道是不是所有这些语言都在spark bert中？谢谢

浏览 24提问于2020-10-19得票数 2

1回答

如果BERT的[CLS]可以针对各种句子分类目标进行再培训，那么[SEP]呢？

、、

在BERT预训练中，CLS标记被嵌入到负责下一个句子预测任务(或者，在某些BERT变体中，与其他任务，如ALBERT的句子顺序预测)的分类器的输入中；这有助于对整个转换器进行预训练，也有助于使CLS位置随时可用于重新训练到其他“句子尺度”任务。我想知道SEP是否也可以用同样的方式进行再培训。虽然CLS可能更容易重新训练，因为transformer已经被训练为在整个句子中将其嵌入的含义注入，而SEP没有这些“连接”(有人会假设)，但这仍然可以通过足够的微调来工作。有了这个，可以为两个不同的分类任务重新训练相同的模型，一个使用CLS，另一个使用SEP。我错过了什么吗？有没有什么原因导致这种方

浏览 26提问于2020-02-24得票数 1

回答已采纳

1回答

如何微调伯特自己的任务？

、、、、

我想用我自己语言的数据对伯特进行预培训，因为BERT的多语言(包括我的语言)模型并不成功。由于整个训练成本很高，所以我决定对其进行微调，包括两个任务:蒙面语言模型和下一个句子预测。以前有针对不同任务(NER、情感分析等)的实现，但我找不到对它自己的任务进行任何微调。有什么我看不到的实现吗？如果没有，我应该从哪里开始呢？我需要初步的帮助。

浏览 1提问于2019-05-03得票数 0

1回答

对于序列分类来说，对大上下文的bert进行微调可以吗？

、

我想要创建序列分类bert模型。模型输入为2句。但是，我想用大上下文数据对模型进行微调，该数据由多个句子组成(标记的数量可能超过512)。如果训练数据的大小和实际输入数据的大小不同，可以吗？谢谢

浏览 0提问于2022-03-25得票数 1

1回答

在tensorflow中训练Bert字嵌入模型

、、、

我有自己的纯文本语料库。我想在TensorFlow中训练一个伯特模型，类似于gensim的word2vec，以得到每个单词的嵌入向量。我已经发现，所有的例子都与任何下游NLP任务相关，比如分类。但是，我想用我的自定义语料库来训练一个Bert模型，然后我可以得到一个给定单词的嵌入向量。任何线索都会有帮助。

浏览 0提问于2020-04-02得票数 2

2回答

如何离线使用列车？

、、、、

我训练我的英语模型跟随这个笔记本()。我能够保存我的预先训练的模型，并运行它没有问题。然而，我需要再次运行它，但是离线运行，而且它不起作用，我知道我需要下载这个文件，并做一些类似于这里所做的事情。然而，我无法理解我需要在哪里改变火车的设置。我负责这个： ktrain.load_predictor('Functions/my_english_nermodel') 这就是我遇到的错误： Traceback (most recent call last): File "Z:\Functions\NER.py", line 155, in load_bert

浏览 4提问于2020-06-02得票数 0

回答已采纳

2回答

你能用特定于任务的体系结构从零开始训练BERT模型吗？

、、

BERT对基本模型的预训练是通过一种语言建模方法完成的，在这种方法中，我们在句子中掩蔽了一定百分比的标记，并让模型学习那些缺失的掩码。然后，我认为，为了完成下游任务，我们添加了一个新的初始化层，并对模型进行了微调。然而，假设我们有一个巨大的句子分类数据集。从理论上讲，我们能否从零开始初始化BERT的基本体系结构，同时训练额外的下游任务特定层+基模型权值，只使用这个句子分类数据集形成scratch，并且仍然取得了良好的效果？谢谢。

浏览 2提问于2020-05-15得票数 7

回答已采纳

2回答

是否有任何理由对伯特进行关于具体文本的预培训？

、、、

因此，官方的伯特英语模型是在维基百科和BookCurpos (来源)(来源)上培训的。例如，现在，假设我想使用BERT作为电影标签推荐。有什么理由让我在电影相关数据集上从无到有地培训一个新的伯特模型？我的模型能变得更准确吗，因为我把它训练成电影相关的文本而不是一般的文本？有这种用法的例子吗？要明确的是，问题在于数据集的上下文(而不是大小)的重要性。

浏览 0提问于2021-02-07得票数 1

回答已采纳

1回答

使用TensorFlow2.0保存和加载微调的bert分类模型

、、

我正在尝试保存一个基于预训练的Bert模块'uncased_L-12_H-768_A-12‘的微调的二进制分类模型。我使用的是tf2。代码设置了模型结构： bert_classifier, bert_encoder =bert.bert_models.classifier_model(bert_config, num_labels=2) 然后： # import pre-trained model structure from the check point file checkpoint = tf.train.Checkpoint(model=bert_encoder) chec

浏览 119提问于2020-11-10得票数 0

2回答

将tensorflow BERT检查点转换为pytorch的错误

、、

我下载了特定于域的bert模型的tensorflow检查点，并将压缩文件解压缩到包含以下三个文件的文件夹pretrained_bert中 model.ckpt.data-00000-of-00001 model.ckpt.index model.ckpt.meta 我使用下面的代码将tensorflow检查点转换为py手电筒 import torch from pytorch_transformers.modeling_bert import BertConfig, BertForPreTraining, load_tf_weights_in_bert tf_checkpoint

浏览 1提问于2019-08-19得票数 1

1回答

如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？

、、、、

我正在尝试使用自定义数据进一步对基本bert模型进行预培训。下面的步骤如下：从自定义数据中生成单词列表，并将这些单词添加到现有的基本字汇文件中。词汇量从35022增加到35880。我使用create_pretraining_data.py从创建了输入数据。使用run_pretraining.py进行预训练，但面临不匹配错误： ValueError:变量的形状/嵌入/word_嵌入:0(35880,128)与检查点读取器的张量bert/embeddings/word_embeddings (30522,128)的形状不匹配。注意：--我用最新的

浏览 4提问于2020-07-17得票数 1

1回答

BERT +自定义图层训练性能随时代而下降

、、、

我正在训练一个分类模型，在BERT之上使用自定义层。在此期间，该模型的训练性能随着时代的增加而下降(在第一个时代之后)。我不确定在这里要修复什么-是模型还是数据？ (对于数据，它是二进制标签，每个标签的数据点数量是平衡的)。对于问题可能是什么，有什么快速的建议吗？以前有没有人遇到过这个问题？编辑:原来我使用的转换器库和tf版本不匹配。一旦我解决了这个问题，训练效果就很好了！谢谢!

浏览 6提问于2020-07-26得票数 1

1回答

重新训练BERT模型

、、、、

我已经使用pytorch为分类任务训练了大约一百万个文本数据的BERT模型。在用新数据测试这个模型后，我得到了假阳性和假阴性。现在我只想用FN和FP重新训练现有的模型。我不想将FN和FP附加到现有的数据集，然后再次训练整个模型。如何仅使用这些FN和Fp重新训练此bert模型，而不是先前训练的模型。

浏览 31提问于2021-11-23得票数 0

1回答

使用领域文本预训练BERT/RoBERTa语言模型，估计需要多长时间？哪个更快？

、、

我想使用领域语料库(情感相关文本)预训练BERT和RoBERTa传销。使用50k~100k单词需要多长时间。由于RoBERTa没有经过训练来预测下一个句子的目标，比BERT少一个训练目标，并且具有更大的小批量和学习率，我假设RoBERTa会快得多？

浏览 28提问于2020-02-09得票数 1

回答已采纳

3回答

nlp任务中微调的意义

、、、、

迁移学习模式有两种类型。一种是特征提取，在对实际任务进行训练时，不改变预训练模型的权重，另一种是可以改变预训练模型的权值。根据这些分类，静态词向量(如word2vec )是一个特征提取模型，每个向量都编码单词的意义。这个词的意思改变了上下文。例如，“河岸”与“银行作为金融机构”。这些word2vec向量并不区分这些意义。像Bert这样的当前模型考虑上下文。Bert是一种语言表示模型。这意味着，它内部可以用上下文词向量来表示单词。默认情况下，伯特是一个微调模型.这就是我关于微调的想象力开始瓦解的地方。比如说，在Bert模型的基础上，我们创建了一些特定于任务的层。现在，如果我们微调，根据定

浏览 0提问于2019-05-27得票数 7

2回答

将模型重量分别保存在移相器中

、、、、

我正在使用PyTorch来训练一个深度学习模式。我想知道我是否可以单独节省模型重量。例如： class my_model(nn.Module): def __init__(self): super(my_model, self).__init__() self.bert = transformers.AutoModel.from_pretrained(BERT_PATH) self.out = nn.Linear(768,1) def forward(self, ids, mask, token_type): x = self.bert(ids, ma

浏览 5提问于2021-12-13得票数 0

回答已采纳

1回答

HuggingFace变压器如何在添加额外的keras层后冻结变压器

、、、、

我想在预训练的BERT模型的最后一层之后添加一个回归层。所以它应该是这样的： output = bert_model([input_ids,attention_masks]) output = output[1] output = tf.keras.layers.Dense(100,activation='relu')(output) 但我不知道如何冻结BERT模型，只训练回归层。有可能吗？

浏览 32提问于2021-05-13得票数 0

1回答

如何从Tensorflow checkpoint (ckpt)文件中预测BERT-base中句子中的掩蔽词？

、、、、

我有基于BERT的模型检查点，这是我在Tensorflow中从头开始训练的。我如何使用这些检查点来预测给定句子中的掩蔽词？例如，假设句子是，"CLS abc pqr MASK xyz SEP“，我想预测掩码位置的单词。我该怎么做呢？我在网上搜索了很多，但每个人都在使用BERT来完成特定于任务的分类任务。而不是使用BERT来预测被屏蔽的单词。请帮我解决这个预测问题。我使用create_pretraining_data.py创建数据，并使用官方BERT存储库(https://github.com/google-research/bert)中的run_pretraining.py从

浏览 24提问于2019-09-11得票数 0

2回答

如何在其他地方使用bert预训练模型？

、、、、

我遵循了这门课程，是关于为情感分析构建一个预先训练的模型。在训练期间，在每个时期，他们使用torch.save(model.state_dict(), f'BERT_ft_epoch{epoch}.model')保存模型。现在我想在其他地方使用这些模型中的一个(显然是最好的)，例如，用户可以粘贴一条tweet作为输入，并获得作者的情绪。但我不知道如何加载模型和预测，这是我尝试过的： import torchvision.models as models import torch model = models.resnet101(pretrained=False) model.

浏览 41提问于2020-07-16得票数 1

1回答

有没有办法在没有配置文件的情况下使用预先训练过的变压器模型？

、、

我想微调一个预先训练的变压器模型的问题回答。该模型是预先培训的大型工程和科学相关的语料库。我得到了一个包含模型权重的"checkpoint.pt“文件。他们还为我提供了一个"bert_config.json“文件，但我不确定这是否是正确的配置文件。 from transformers import AutoModel, AutoTokenizer, AutoConfig MODEL_PATH = "./checkpoint.pt" config = AutoConfig.from_pretrained("./bert_config.json"

浏览 4提问于2021-08-12得票数 0

回答已采纳

1回答

伯特微调附加功能

、

我想使用Bert来执行nlp任务。但我也有更多的功能，我想包括在内。据我所见，通过微调，一个只改变标签和重新训练分类层。是否有方法使用预先培训的伯特模型，并包括额外的功能？

浏览 0提问于2019-03-05得票数 9

回答已采纳

1回答

如何使用拥抱面孔转换器训练用于翻译任务的编码器-解码器模型？

、、

我想训练一个编码器解码器模型，如下所示，用于翻译任务。有人能指导我如何为这样一个模型建立一个训练管道吗？任何链接或代码片段将不胜感激。 from transformers import BertConfig, EncoderDecoderConfig, EncoderDecoderModel # Initializing a BERT bert-base-uncased style configuration config_encoder = BertConfig() config_decoder = BertConfig() config = EncoderDecoderConfig.

浏览 56提问于2020-06-18得票数 7

3回答

微调BERT的最后x层

、、、

我试着微调BERT只在特定的最后一层(比方说最后三层)。我想使用谷歌Colab进行TPU培训。我使用hub.Module加载BERT并对其进行微调，然后将微调后的输出用于我的分类任务。 bert_module = hub.Module(BERT_MODEL_HUB, tags=tags, trainable=True) hub.Module可以选择将模型设置为可训练或不可训练，但不能将其设置为部分可训练(仅特定层) 有人知道如何使用hub.Module训练最后1、2或3层的BERT吗谢谢

浏览 67提问于2019-05-08得票数 2

1回答

如何在训练过程中保持模型固定？

、、、、

我正在尝试实现一个模型，该模型使用来自不同数据集的多个预训练BERT模型的编码，并使用完全连接层获得组合表示。在这方面，我希望BERT模型应该保持固定，只有完全连接的层应该得到训练。在huggingface-transformers中实现这一点是可能的吗？我没有看到任何允许我这样做的标志。 PS:我不想把每个BERT模型的输入编码都去掉，然后把它们当作输入。

浏览 29提问于2020-04-28得票数 0

回答已采纳

1回答

使用预训练的Bert，Elmo获得两个单词之间的相似度分数

、、、、

我正在尝试使用预训练的维基模型来比较Glove，Fasttext，Bert，Elmo在两个单词之间的相似度。Glove和Fasttext有预训练的模型，可以很容易地与python中的gensim word2vec一起使用。Elmo和Bert有这样的模型吗？

浏览 74提问于2019-09-15得票数 1

1回答

阿尔伯特不收敛- HuggingFace

、、、、

我正在尝试将经过预先训练的HuggingFace阿尔伯特转换器模型应用到我自己的文本分类任务中，但损失不会超过某个点。这是我的密码：在我的文本分类数据集中有四个标签，它们是： 0, 1, 2, 3 定义令牌程序 maxlen=25 albert_path = 'albert-large-v1' from transformers import AlbertTokenizer, TFAlbertModel, AlbertConfig tokenizer = AlbertTokenizer.from_pretrained(albert_path, do_lower_case=T

浏览 0提问于2020-06-20得票数 4

1回答

如何在BERT的帮助下找到段落的上下文？

我正在寻找一种方法来用BERT运行一个简单的例子。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预训练BERT模型。如何将段落传递给BERT并获得主要上下文的文本表示？谢谢! EDTED：示例:我们有一个段落 “我正在寻找一种使用BERT运行一个简单示例的方法。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预先训练的BERT模型。如何将该段落传递给BERT并获得主要上下文的文本表示

浏览 18提问于2019-01-16得票数 1

回答已采纳

1回答

在BERT中获取'[UNK]‘的值

、、、

我设计了一个基于BERT的模型来解决NER任务。我使用的是带有"dccuchile/bert-base-spanish-wwm-cased"预训练模型的transformers库。当我的模型检测到一个实体，但令牌是'[UNK]'时，问题就来了。我怎么知道哪个是那个标记后面的字符串呢？我知道未知的令牌不能还原为原始令牌，但我至少希望在将输入传递给模型之前捕获该值。代码非常简单： sentenceIds = tokenizer.encode(sentence,add_special_tokens = True) inputs = pad_seq

浏览 0提问于2020-02-13得票数 3

1回答

深度学习NLP：“高效”的BERT类实现？

、、、、

我在一个遗留的公司环境中工作，在NLP项目中我只有16个核心64 to的VM可用。我有一个多标签自然语言处理文本分类问题，我真的想利用一个深度表示学习模型，如BERT，RoBERTa，ALBERT等。我有大约200,000个需要标记的文档，我有大约2,000个注释集，用作训练/测试/微调的基础事实。我还有更多与领域相关的文档可用于预培训。我很可能需要从头开始进行预训练，因为这是在临床领域。我也对预先训练过的模型持开放态度，如果他们可能有机会进行微调，比如拥抱脸部等。人们会建议以哪些兼容PyTorch或Keras的模型及其实现作为起点？或者，这对我现有的计算资源来说不是一个计算型的初学者？

浏览 45提问于2020-05-15得票数 1

回答已采纳

1回答

在文章没有标签或预期输出摘要的情况下，使用BERT进行文章摘要

、、、

我正在做一个项目，其中我有一些限制，我不能使用提取方法来总结一篇文章，因此必须使用BERT。如果这是一个标签问题(总结推文、评论、问题)，其中我有训练数据的相应标签，我会使用BERT中的向量作为LSTM的Keras嵌入层的输入，并构建一个具有输入和输出标签的模型。但问题是，我必须总结文本，而不是贴上标签的推文和评论。当我有与词汇表相对应的向量时，有没有办法(我确定有，因为我被问得很明确)可以使用BERT？

浏览 3提问于2020-01-21得票数 0