我在哪里可以得到BERT的预训练词嵌入？_在Spacy 3.0中将预训练的BERT嵌入作为textcat模型的输入_在编码器-解码器架构中，我应该在哪里传递预训练的单词嵌入？ - 腾讯云开发者社区

python、pytorch、word-embedding、bert-language-model、language-model

我想加载一个预训练的Bert模型，并使用自定义数据集对其进行微调，特别是模型的单词嵌入。任务是使用所选单词的单词嵌入进行进一步分析。值得一提的是，数据集由tweet组成，没有标签。因此，我使用了BertForMaskedLM模型。此任务是否可以使用输入ids (标记化的tweet)作为标签？我没有标签。只有一些推文是随机排列的。从这一点开始，我给出了我写的代码：首先，我清除了数据集中的表情符号、非ASCII码字符等，如以下链接(2.3节)所述：https://www.kaggle.com/jaskaransingh/bert-fine-tuning-with-pytorch 第二，微调

浏览 56提问于2020-10-01得票数 0

1回答

从零开始分析BERT与模型

machine-learning、bert、sentiment-analysis

我正在构建一个情感分析器，我想分析的数据是来自twitter的社交媒体数据，一旦我创建了一个模型，我想把它整合到一个简单的网页中。我尝试了两种选择：从零开始创建我自己的模型，这意味着训练一个word2vec模型来执行字嵌入，将标记的数据集转换成向量并使用Logistic回归、随机森林或支持向量机进行训练。使用我的数据集微调伯特模型。备选案文1.使用word2vec和支持向量机，我得到了以下结果： precision recall f1-score support 0 0.74 0.67 0.70

浏览 0提问于2023-02-21得票数 0

回答已采纳

3回答

nlp任务中微调的意义

nlp、word2vec、word-embeddings、transfer-learning、bert

迁移学习模式有两种类型。一种是特征提取，在对实际任务进行训练时，不改变预训练模型的权重，另一种是可以改变预训练模型的权值。根据这些分类，静态词向量(如word2vec )是一个特征提取模型，每个向量都编码单词的意义。这个词的意思改变了上下文。例如，“河岸”与“银行作为金融机构”。这些word2vec向量并不区分这些意义。像Bert这样的当前模型考虑上下文。Bert是一种语言表示模型。这意味着，它内部可以用上下文词向量来表示单词。默认情况下，伯特是一个微调模型.这就是我关于微调的想象力开始瓦解的地方。比如说，在Bert模型的基础上，我们创建了一些特定于任务的层。现在，如果我们微调，根据定

浏览 0提问于2019-05-27得票数 7

1回答

在bert上训练新数据集

python、tensorflow、nlp、tokenize、bert-language-model

我是新来伯特的我有一个amazon评论数据集，我想要根据评论预测星级我知道我可以使用预先训练好的bert模型，如here所示但我想在我自己的数据集上训练bert模型。这就是here正在做的事情吗？我是否可以在任何数据集的预训练模型上应用这种“微调”，以获得更准确的结果，或者我是否必须做一些其他事情来从头开始训练模型如果我确实想从头开始训练一个模型，我应该从哪里开始呢？

浏览 61提问于2021-10-03得票数 0

1回答

如何将BERT预训练嵌入与我自己的新数据集一起使用？

word-embedding、transfer-learning、bert-language-model

我的数据集和自然语言处理任务与作者预先训练的模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大的不同，所以我不能直接微调。有没有什么示例代码/GitHub可以帮助我用自己的数据训练BERT？我希望得到像glove这样的嵌入。非常感谢!

浏览 48提问于2019-06-13得票数 2

3回答

如何阻止BERT将特定的单词拆分成单词片段

python、text、nlp、tokenize、bert-language-model

我正在使用预训练的BERT模型将文本标记化为有意义的标记。然而，文本中有许多特定的单词，我不希望BERT模型将它们分成几个单词。有什么解决方案吗？例如： tokenizer = BertTokenizer('bert-base-uncased-vocab.txt') tokens = tokenizer.tokenize("metastasis") 像这样创建令牌： ['meta', '##sta', '##sis'] 但是，我希望将整个单词保留为一个标记，如下所示： ['metastasis']

浏览 0提问于2020-05-29得票数 4

1回答

对于序列分类来说，对大上下文的bert进行微调可以吗？

bert、finetuning

我想要创建序列分类bert模型。模型输入为2句。但是，我想用大上下文数据对模型进行微调，该数据由多个句子组成(标记的数量可能超过512)。如果训练数据的大小和实际输入数据的大小不同，可以吗？谢谢

浏览 0提问于2022-03-25得票数 1

1回答

在使用bert模型作为嵌入向量时，我需要在自己的数据上进行训练吗？

bert-language-model、huggingface-transformers、transformer

当我尝试huggingface模型时，它给出了以下错误信息： from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") inputs = tokenizer("Hello world!", return_tensors="pt") outputs = mod

浏览 1提问于2021-05-19得票数 0

1回答

将BERT模型作为泡菜文件保存在磁盘上

apache-spark、johnsnowlabs-spark-nlp

我已经设法让伯特模型工作在约翰斯诺实验室-火花-nlp库。我能够将“经过训练的模型”保存在磁盘上，如下所示。拟合模型 df_bert_trained = bert_pipeline.fit(textRDD) df_bert=df_bert_trained.transform(textRDD) 保存模型 df_bert_trained.write().overwrite().save("/home/XX/XX/trained_model") 然而，首先，根据这里的文档，可以将模型加载为 EmbeddingsHelper.load(path, spark, format, r

浏览 2提问于2020-01-23得票数 1

1回答

如何从RoBERTa中获得每个单词(令牌)的单个嵌入向量？

word-embedding、bert-language-model、pre-trained-model、roberta

正如您可能知道的，RoBERTa (BERT, etc.)有自己的令牌程序，有时您会得到一些给定的单词作为标记，例如嵌入由于我正在处理的任务的性质，我需要一个词的单一表示。我怎么弄到它？清除：句子：“嵌入是好的” 输出: embed，# out，are，->4个令牌已退出当我给经过预先训练的RoBERTa判刑时，我会得到编码的标记.最后，我需要每个令牌的表示。解决方案是什么？求和嵌入+#wise标记点？

浏览 7提问于2021-01-31得票数 2

2回答

在小型定制语料库上预训练语言模型

deep-learning、transfer-learning、huggingface-transformers、language-model、bert-language-model

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：使用经过预先训练的伯特装置。从我的新文本中获取新的标记，并将它们添加到现有的经过预先培训的语言模型中(例如，vanilla BERT)。使用组合标记器在自定义语料库上重新训练预训练的BERT模型。在小型定制语料库中生成类似于文本的文本。这听起来耳熟吗？抱着脸

浏览 5提问于2020-04-24得票数 7

1回答

针对不同语言的特定领域微调BERT？

python-3.x、deep-learning、nlp、bert-language-model

我想对一个预先训练好的BERT模型进行微调。但是，我的任务使用特定领域内的数据(比如生物医学数据)。此外，我的数据也是一种不同于英语的语言(比如荷兰语)。现在，我可以微调荷兰bert-base-荷兰案例预训练模型。然而，我该如何对生物医学BERT模型进行微调，比如BioBERT，它属于正确的领域，但语言错误？我曾经考虑过使用NMT，但我不认为它是可行的，也不值得为此付出努力。如果我在没有对模型进行任何更改的情况下进行微调，我担心模型不会很好地学习任务，因为它是在完全不同的语言上预先训练的。

浏览 4提问于2021-01-28得票数 2

1回答

spacy_sklearn和tensorflow_embedding管道的区别

machine-learning、rasa-nlu

我想知道在spacy_sklearn和tensorflow_embedding管道之间是否有什么基本的区别。我的意思是tensorflow_embedding也必须使用相同的词嵌入概念，使用PCA等来降低数据的维度。那么唯一的区别是spacy_sklearn有一些预训练的数据以预训练向量的形式绘制，而tensorflow管道没有吗?我的理解正确吗?还有tensorflow_embedding管道与谷歌提供的tensorflow框架有什么关系？我试着在google上搜索tensorflow框架，但没有得到任何具体的答案。我也在RASA社区页面上搜索了一下，但再次没有找到帮助

浏览 0提问于2019-02-06得票数 0

1回答

spark nlp中的多语言bert

apache-spark、bert-language-model、johnsnowlabs-spark-nlp

我想知道是否有预训练的多语种Bert在sparknlp中可用？如你所知，Bert经过了109种语言的预训练。我想知道是不是所有这些语言都在spark bert中？谢谢

浏览 24提问于2020-10-19得票数 2

1回答

来自TensorFlow集线器的BERT编码

tensorflow、tensorflow-hub

我使用下面的代码为我的文本分类生成嵌入。 import tensorflow as tf import tensorflow_hub as hub import tensorflow_text as text bert_preprocess =hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3") bert_encoder = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-1

浏览 8提问于2022-02-04得票数 0

4回答

如何在未标记的数据上微调BERT？

nlp、pytorch、huggingface-transformers、bert-language-model

我想在特定的域上对BERT进行微调。我在文本文件中有该域的文本。我如何使用这些来微调BERT？我目前正在寻找。我的主要目标是使用BERT实现句子嵌入。

浏览 3提问于2020-05-23得票数 6

1回答

位置编码(在变压器中)是对训练语料库文本中单词相对位置的估计吗？

bert、transformer

这是对训练课文中单词相对位置的某种估计吗？他们是否创造了某种统计上的“分布”词？在英语中，“猫”通常离“牛奶”有两三个字吗？事情必须有意义，不是吗？伯特是否只是在向量空间中添加一些降维，以包含有关单词相对位置的信息？

浏览 0提问于2021-04-27得票数 1

回答已采纳

1回答

通过TF-hub导入后冻结BERT层并对其进行训练？

tensorflow、tensorflow-hub

我将在这里描述我的意图。我想通过tf-hub函数hub.module(bert_url，trainable = True)导入BERT预训练模型，并将其用于文本分类任务。我计划使用一个大型语料库来微调BERT的权重，以及几个输入为BERT输出的密集层。然后我想冻结BERT的层，只训练BERT之后的致密层。我怎样才能有效地做到这一点呢？

浏览 25提问于2020-03-29得票数 0

1回答

BERT模型中的双向性

machine-learning、deep-learning、machine-learning-model、transformer

我正在读BERT的论文:深度双向变压器的预训练，可以找到这里的语言理解。在我看来，这篇论文的关键在于使用蒙面输入来实现双向的目标。这是Google博客这里的摘录，它说： “然而，不可能通过简单地对每个单词的前一个和下一个单词进行限定来训练双向模型，因为这将允许被预测的单词在多层模型中间接地”看到自己“。为了解决这个问题，我们使用了简单的技术，在输入中隐藏一些单词，然后对每个单词进行双向预测。” 有人能帮我理解一下，如何双向地让这些词看到自己，以及如何掩蔽解决这个问题？谢谢。

浏览 0提问于2019-08-05得票数 3

回答已采纳

1回答

如何微调伯特自己的任务？

python、keras、nlp、pytorch、language-model

我想用我自己语言的数据对伯特进行预培训，因为BERT的多语言(包括我的语言)模型并不成功。由于整个训练成本很高，所以我决定对其进行微调，包括两个任务:蒙面语言模型和下一个句子预测。以前有针对不同任务(NER、情感分析等)的实现，但我找不到对它自己的任务进行任何微调。有什么我看不到的实现吗？如果没有，我应该从哪里开始呢？我需要初步的帮助。

浏览 1提问于2019-05-03得票数 0

1回答

为什么BERT模型必须保持10%的掩码标记不变？

deep-learning、nlp、bert-language-model

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

浏览 151提问于2020-09-23得票数 2

回答已采纳

1回答

在rasa nlu管道中具有预训练和监督嵌入的组合

chatbot、rasa-nlu、rasa、rasa-x

我是rasa的新手，开始创建一个非常特定于领域的聊天机器人。作为其中的一部分，我理解更好地使用监督嵌入作为nlu管道的一部分，因为我的用例是特定于领域的。我的nlu.md中有一个示例意图 ## create_system_and_config - create a [VM](system) of [12 GB](config) 如果我尝试使用监督特征器，它可能可以很好地与我的领域特定实体一起工作，但我在这里担心的是，如果只使用监督学习，我们不会失去预训练模型的优势吗？例如，在诸如add a (some_system) of (some_config)之类的查询中。add和create是紧密

浏览 1提问于2020-09-01得票数 1

1回答

在Keras中嵌入预训练模型的问题

python、tensorflow、keras

我有一个预先训练好的Fasttext模型，我想把它嵌入到Keras中。 model = Sequential() model.add(Embedding(MAX_NB_WORDS, EMBEDDING_DIM, input_length=X.shape[1], input_length=4, weights=[embedding_matrix], trainable=False)) 但它并没

浏览 14提问于2020-03-26得票数 0

回答已采纳

1回答

关于文本分类任务迁移学习的任何有用提示

classification、nlp、transfer-learning、text-classification

我正在做一个监督的二进制文本分类任务。我想对A、B和C站点的文本进行分类。对于每个站点的文本来说，域内性能看起来都很好。(92%~94%)。然而，如果我将一个站点的文本培训模型直接应用到另一个站点的文本上(不进行微调)，那么性能就会大大降低。(7%-16%的精度降级)。我已经尝试过的方法： Doc2vec嵌入(对一个站点的文本进行训练)+ logistic回归。 Bert嵌入+ logistic回归。(使用bert -as-a-服务来生成基于google预先培训的bert模型的嵌入)。 TF-国防军+ logistic回归。预先训练的Word2vec嵌入(文本的平均单词嵌入)+ lo

浏览 0提问于2020-07-21得票数 2

回答已采纳

1回答

如何使用BERT获得单词的向量？

nlp、word-embeddings、bert、representation

我需要使用BERT得到单词向量，得到这个函数，我认为它应该是我需要的。 def get_bert_embed_matrix(sentences): device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model_config = transformers.AutoConfig.from_pretrained('bert-base-uncased', output_hidden_states=True) model = transfo

浏览 0提问于2022-01-14得票数 1

2回答

如何用pytorch实现SciBERT；加载时出错

error-handling、neural-network、nlp、tar、word-embedding

我正在尝试使用SciBERT预训练的模型，即： !pip install pytorch-pretrained-bert import torch from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM import logging import matplotlib.pyplot as plt tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

浏览 11提问于2019-10-12得票数 0

2回答

使用BERT词嵌入生成同义词或相似词

nlp、word-embedding

我想使用BERT单词嵌入生成同义词或类似的单词。我开始使用BERT做这件事。对于以后的软件集成，它必须用Java语言完成，所以我选择了easy-bert ()。看起来我可以通过这种方式获得单词嵌入： try(Bert bert = Bert.load(new File("com/robrua/nlp/easy-bert/bert-uncased-L-12-H-768-A-12"))) { float[][] embedding = bert.embedTokens("A sequence"); float[][][] embeddings =

浏览 4提问于2020-03-05得票数 2

1回答

从BERT模型中提取单词特征

word-embedding、bert-language-model、latent-semantic-analysis

如你所知，我们可以在句子中提取单词的BERT特征。我的问题是，我们是否也可以提取句子中未包含的单词特征？例如，bert特征的单个单词，如“狗”，“人”等。

浏览 140提问于2020-10-15得票数 0

回答已采纳

1回答

用于文本分类的预训练BERT库

deep-learning、nlp、transformer

我有一个推文语料库，我正在尝试使用BERT进行分类。我已经使用我的语料库成功地预先训练了BERT，并且它已经生成了检查点文件。现在我需要使用这个新的训练模型，并向其添加更多的层。我尝试使用keras_bert中的"load_trained_model_from_checkpoint“函数，但它失败了，并出现错误"cls/predictions/transform/dense/kernel not found in checkpoint”。有没有人能帮我修复这个bug。谢谢

浏览 9提问于2020-03-05得票数 0

1回答

使用领域文本预训练BERT/RoBERTa语言模型，估计需要多长时间？哪个更快？

language-model、bert-language-model、huggingface-transformers

我想使用领域语料库(情感相关文本)预训练BERT和RoBERTa传销。使用50k~100k单词需要多长时间。由于RoBERTa没有经过训练来预测下一个句子的目标，比BERT少一个训练目标，并且具有更大的小批量和学习率，我假设RoBERTa会快得多？

浏览 28提问于2020-02-09得票数 1

回答已采纳

1回答

何时使用GloVe词汇表与从培训数据构建词汇表相比？

nlp、word-embeddings

在研究一些使用预先训练的GloVe向量的例子时，我遇到了两个变体：使用GloVe向量的词汇表，从而使用预先训练的GloVe向量初始化嵌入层。从语料库构建一个词汇表，然后只使用与该词汇表相对应的经过预先训练的GloVe向量来初始化嵌入层。在我看来，通过使用GloVe向量的词汇表，训练集中的某些标记可能没有对应的GloVe向量，因此被排除在词汇表之外。因此，您可能会错过对任务具有重要意义的令牌。另一方面，从语料库构建词汇表意味着模型不能处理看不见的单词(据我正确理解)。因此，我想知道:什么时候应该使用GloVe词汇表而不是从培训数据构建词汇表？而使用两个词汇表的“联合”是否有意义呢？

浏览 0提问于2021-11-29得票数 1

回答已采纳

1回答

从子词标记编码中获取词级编码

nlp、tokenize、bert-language-model、huggingface-transformers

我正在研究使用预训练的BERT ('bert-base-uncased')模型从一堆句子中提取上下文词级编码。词块标记化将我输入中的一些单词分解为子词单元。这可能是一个微不足道的问题，但我想知道将子词标记的输出编码合并到词级编码中最合理的方法是什么。平均子词编码是一种合理的方法吗？如果没有，有没有更好的选择？

浏览 18提问于2020-01-29得票数 1

回答已采纳

1回答

bert中的反向传播

nlp、bert-language-model、transformer

我想知道，当人们说预训练的bert模型时，是否只训练了最终的分类神经网络或通过反向传播和分类神经网络，transformer内部是否有任何更新

浏览 121提问于2021-02-04得票数 1

回答已采纳

1回答

通过删除不使用的层来微调BERT模型

python、tensorflow、keras、sentiment-analysis、bert-language-model

我在bert情感分析中发现了这段代码，其中删除了未使用的层，添加了更新可训练变量/可训练权重，我正在寻找显示BERT中不同层的文档，我们如何删除未使用的层，添加权重等。但是，我找不到任何相关文档。 BERT_PATH = "https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1" MAX_SEQ_LENGTH = 512 class BertLayer(tf.keras.layers.Layer): def __init__(self, bert_path, n_fine_tune_encoders=10, **k

浏览 72提问于2021-09-20得票数 0

1回答

通过Huggingface转换器更新BERT模型

tensorflow、nlp、pytorch、spacy、huggingface-transformers

我正在尝试使用内部语料库更新预训练的BERT模型。我看过Huggingface的transformer文档，你会发现我有点困惑，below.My的目标是使用余弦距离计算句子之间的简单相似度，但我需要为我的特定用例更新预先训练的模型。如果你看一下下面的代码，这正是Huggingface文档中的代码。我试图“重新训练”或更新模型，我假设special_token_1和special_token_2表示来自我的“内部”数据或语料库的“新句子”。这是正确的吗？总而言之，我喜欢已经预训练的BERT模型，但我想使用另一个内部数据集来更新或重新训练它。任何线索都将不胜感激。 import tensorfl

浏览 53提问于2019-10-30得票数 9

2回答

如何离线使用列车？

python、tensorflow、offline、named-entity-recognition、bert-language-model

我训练我的英语模型跟随这个笔记本()。我能够保存我的预先训练的模型，并运行它没有问题。然而，我需要再次运行它，但是离线运行，而且它不起作用，我知道我需要下载这个文件，并做一些类似于这里所做的事情。然而，我无法理解我需要在哪里改变火车的设置。我负责这个： ktrain.load_predictor('Functions/my_english_nermodel') 这就是我遇到的错误： Traceback (most recent call last): File "Z:\Functions\NER.py", line 155, in load_bert

浏览 4提问于2020-06-02得票数 0

回答已采纳

3回答

如何使用BERT中的嵌入比较句子相似度

python、vector、nlp、cosine-similarity、huggingface-transformers

我正在使用HuggingFace Transformers包访问预先训练好的模型。因为我的用例需要英语和阿拉伯语的功能，所以我使用预训练模型。我需要能够使用诸如余弦相似性之类的东西来比较句子的相似性。要使用它，我首先需要获得每个句子的嵌入向量，然后才能计算余弦相似度。首先，从BERT模型中提取语义嵌入的最佳方法是什么？在输入句子后获取模型的最后一个隐藏状态是否足够？ import torch from transformers import BertModel, BertTokenizer model_class = BertModel tokenizer_class = BertToke

浏览 2提问于2020-03-03得票数 21

回答已采纳

1回答

伯特微调附加功能

nlp、bert

我想使用Bert来执行nlp任务。但我也有更多的功能，我想包括在内。据我所见，通过微调，一个只改变标签和重新训练分类层。是否有方法使用预先培训的伯特模型，并包括额外的功能？

浏览 0提问于2019-03-05得票数 9

回答已采纳

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

nlp、spacy、text-classification、bert-language-model

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？ Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处？ 2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

2回答

将tensorflow BERT检查点转换为pytorch的错误

python、tensorflow、pytorch

我下载了特定于域的bert模型的tensorflow检查点，并将压缩文件解压缩到包含以下三个文件的文件夹pretrained_bert中 model.ckpt.data-00000-of-00001 model.ckpt.index model.ckpt.meta 我使用下面的代码将tensorflow检查点转换为py手电筒 import torch from pytorch_transformers.modeling_bert import BertConfig, BertForPreTraining, load_tf_weights_in_bert tf_checkpoint

浏览 1提问于2019-08-19得票数 1

1回答

在tensorflow中训练Bert字嵌入模型

python、tensorflow、nlp、bert-language-model

我有自己的纯文本语料库。我想在TensorFlow中训练一个伯特模型，类似于gensim的word2vec，以得到每个单词的嵌入向量。我已经发现，所有的例子都与任何下游NLP任务相关，比如分类。但是，我想用我的自定义语料库来训练一个Bert模型，然后我可以得到一个给定单词的嵌入向量。任何线索都会有帮助。

浏览 0提问于2020-04-02得票数 2

1回答

如果BERT的[CLS]可以针对各种句子分类目标进行再培训，那么[SEP]呢？

transformer、bert-language-model、huggingface-transformers

在BERT预训练中，CLS标记被嵌入到负责下一个句子预测任务(或者，在某些BERT变体中，与其他任务，如ALBERT的句子顺序预测)的分类器的输入中；这有助于对整个转换器进行预训练，也有助于使CLS位置随时可用于重新训练到其他“句子尺度”任务。我想知道SEP是否也可以用同样的方式进行再培训。虽然CLS可能更容易重新训练，因为transformer已经被训练为在整个句子中将其嵌入的含义注入，而SEP没有这些“连接”(有人会假设)，但这仍然可以通过足够的微调来工作。有了这个，可以为两个不同的分类任务重新训练相同的模型，一个使用CLS，另一个使用SEP。我错过了什么吗？有没有什么原因导致这种方

浏览 26提问于2020-02-24得票数 1

回答已采纳

2回答

用BERT检测语法错误

nlp、bert、grammar-inference

我们对bert-base-uncased( BERT )模型和CoLA数据集进行了精细调整，以完成句子分类任务.数据集是有语法错误和没有语法错误的句子的组合。然后，再训练的模型被用来识别有或没有错误的句子。除了建立分类器外，我们还可以使用BERT的其他方法吗？

浏览 0提问于2021-01-06得票数 3

1回答

如何用bert嵌入来训练神经网络模型，而不是像手套/快速文本那样的静态嵌入？

python、machine-learning、neural-network、artificial-intelligence、pytorch

我想找一些人来训练一个传统的神经网络模型，它的bert嵌入是动态生成的(BERT上下文化嵌入，它为相同的单词生成不同的嵌入，当不同的上下文出现时，它会产生不同的嵌入)。在正常的神经网络模型中，我们会用手套或快速文本嵌入来初始化模型， import torch.nn as nn embed = nn.Embedding(vocab_size, vector_size) embed.weight.data.copy_(some_variable_containing_vectors) 我不想复制像这样的静态向量并使用它进行训练，而是将每一个输入传递给一个BERT模型，并生成动态的单词嵌入，

浏览 0提问于2019-03-27得票数 6

1回答

在BERT中获取'[UNK]‘的值

python-3.x、pytorch、bert-language-model、huggingface-transformers

我设计了一个基于BERT的模型来解决NER任务。我使用的是带有"dccuchile/bert-base-spanish-wwm-cased"预训练模型的transformers库。当我的模型检测到一个实体，但令牌是'[UNK]'时，问题就来了。我怎么知道哪个是那个标记后面的字符串呢？我知道未知的令牌不能还原为原始令牌，但我至少希望在将输入传递给模型之前捕获该值。代码非常简单： sentenceIds = tokenizer.encode(sentence,add_special_tokens = True) inputs = pad_seq

浏览 0提问于2020-02-13得票数 3

1回答

如何预测给定句子中的掩蔽词

nlp、bert-language-model

FitBERT是一个有用的软件包，但我对BERT开发掩蔽单词预测有一点怀疑，如下所示:我使用谷歌的脚本(如create_pretraining_data.py，run_pretraining.py，extract_features.py etc..as )使用自定义语料库训练了bert模型，结果我得到了vocab文件，.tfrecord文件，.json文件和检查点文件。现在如何在你的软件包中使用这些文件来预测给定句子中的掩蔽词？？

浏览 1提问于2020-10-04得票数 0

1回答

伯特从哪里得到它预测的代币？

nlp、bert、language-model、tokenization

当BERT被用于蒙面语言建模时，它掩盖了一个标记，然后尝试预测它。伯特可以从中选择哪些候选令牌？它只是预测一个整数(就像一个回归问题)，然后使用这个令牌吗？或者它会对所有可能的单词标记执行softmax吗？对于后者，不是只有大量的可能的令牌吗？我很难想象BERT把它当作一个分类问题，其中# classes =#所有可能的单词标记。伯特从哪里得到它预测的标记？

浏览 0提问于2020-11-16得票数 2

回答已采纳

1回答

如何在HuggingFace变压器库中获取预训练的BERT模型的中间层输出？

tensorflow、keras、tensorflow2.0、huggingface-transformers、bert-language-model

(我正在学习关于BERT word嵌入的 author教程，在本教程中，作者访问了BERT模型的中间层。) 我想要的是使用HuggingFace的Transformers库访问TensorFlow2中BERT模型的单个输入令牌的最后4层。因为每个层输出一个长度为768的向量，所以最后4个层的形状为4*768=3072 (对于每个令牌)。如何在TF/keras/TF2中实现这一点，以获得输入令牌的预训练模型的中间层？(稍后，我将尝试为句子中的每个令牌获取令牌，但现在一个令牌就足够了)。我正在使用HuggingFace的BERT模型： !pip install transformers fro

浏览 8提问于2020-04-27得票数 7

回答已采纳

1回答

理解词嵌入的迁移学习

nlp、word-embeddings、word2vec、transfer-learning、named-entity-recognition

我无法想象预先训练过的单词嵌入的迁移学习在NLP任务(比如命名实体识别)中是如何有用的。我正在学习Andrew NG的序列模型课程，他似乎说，如果目标任务的训练集非常少，那么转移单词嵌入的学习将有助于在应用程序中处理训练集中的未知单词。让我们考虑命名实体识别的任务，我的问题是，为目标任务设置的很小的训练内容是什么？它们是带有实体标记的单词嵌入还是句子？他是否认为，如果训练集只是在预先训练过的模型中有嵌入词的标记句，那么训练集中不存在但更接近训练集的单词也会在应用程序中被有效捕获？考虑一下‘橘子’正在训练中。但是，“苹果”并不是。所以，在“我喜欢橘子汁”和“我喜欢苹果汁”这两个句子中，

浏览 0提问于2020-07-27得票数 1

1回答

如何更改transformers.bert的最大序列长度？

pytorch、transform、bert-language-model

我下载了基于bert的预训练模型。我编辑config.json (从512到256) "max_position_embeddings": 256, 然后我想使用bert模型， from transformers import BertForSequenceClassification model = BertForSequenceClassification.from_pretrained( MODEL_PATH, num_labels = 2, # The number of output labels--2 for binary classifica

浏览 260提问于2020-10-23得票数 0