使用BERT进行文本嵌入？_使用pytorch进行BERT文本分类_使用字符嵌入的BERT训练 - 腾讯云开发者社区

、、、、

我想要建立一个文本相似模型，我倾向于使用该模型来查找常见问题和其他方法，以获得最相关的文本。我想对这个NLP任务使用高度优化的BERT模型，.I倾向于使用所有句子的编码来获得一个使用cosine_similarity并返回结果的相似矩阵。在假设条件下，如果我有两个句子作为hello world和hello hello world，那么我假设BRT会给出类似于[0.2,0.3,0] (0表示填充)和[0.2,0.2,0.3]的句子，我可以在sklearn's cosine_similarity中传递这两个句子。我应该如何提取嵌入的句子，以便在模型中使用它们？我在某个地方发现它可以被提

浏览 2提问于2020-07-22得票数 1

回答已采纳

4回答

如何在未标记的数据上微调BERT？

、、、

我想在特定的域上对BERT进行微调。我在文本文件中有该域的文本。我如何使用这些来微调BERT？我目前正在寻找。我的主要目标是使用BERT实现句子嵌入。

浏览 3提问于2020-05-23得票数 6

1回答

BERT作为分类服务？

、、

我在分类任务中对BERT进行了微调。 bert-as-a-service允许获取单词嵌入，但我想获取输入文本的类。这个问题最好在这里描述：https://github.com/hanxiao/bert-as-service/issues/213 你有什么建议吗？

浏览 10提问于2019-09-19得票数 0

1回答

当我有没有标签的文本文档数据集时，如何使用BERT的微调？

、、、

我对使用BERT进行各种NLP/文本挖掘任务有了基本的了解。当谈到伯特的微调时，我总是看到微调是使用一些分类任务来执行的。那么，当我有一组完全没有标签的文档时，我应该如何改进BERT模型给出的单词/句子嵌入向量？我知道，BERT模型最初是针对没有标签的数据进行培训的，所以必须有一些方法。

浏览 0提问于2020-05-27得票数 2

3回答

如何阻止BERT将特定的单词拆分成单词片段

、、、、

我正在使用预训练的BERT模型将文本标记化为有意义的标记。然而，文本中有许多特定的单词，我不希望BERT模型将它们分成几个单词。有什么解决方案吗？例如： tokenizer = BertTokenizer('bert-base-uncased-vocab.txt') tokens = tokenizer.tokenize("metastasis") 像这样创建令牌： ['meta', '##sta', '##sis'] 但是，我希望将整个单词保留为一个标记，如下所示： ['metastasis']

浏览 0提问于2020-05-29得票数 4

2回答

我们能否只使用BERT进行词嵌入，然后使用SVM/RNN进行意图分类？

、、、、

根据本文，"用于意图分类的系统包含以下内容的两个组件:字嵌入和分类器。“本文还对BERT+SVM和Word2Vec+SVM进行了评估。我试图做的相反，比较两个不同的分类器(RNN和SVM)使用伯特的字嵌入。我发现的大多数Python代码都使用BERT来解决整个意图分类问题，这使我感到困惑。示例我只想用BERT将单词映射到向量中，并将结果输入到分类器(SVM/RNN)中。伯特同时支持文字嵌入和文本分类吗？有人有解释吗？我尝试用Python测试的内容可行吗？我有一个有两列的dataframe :意图和问题。这是个小数据集。谢谢!

浏览 0提问于2020-08-04得票数 4

1回答

从BERT模型中提取单词特征

、、

如你所知，我们可以在句子中提取单词的BERT特征。我的问题是，我们是否也可以提取句子中未包含的单词特征？例如，bert特征的单个单词，如“狗”，“人”等。

浏览 140提问于2020-10-15得票数 0

回答已采纳

3回答

在bert层中，池输出和序列输出有什么不同？

、、、、

所有人！我读到了关于Bert的文章，我想做文本分类和它的单词嵌入。我遇到了这一行代码： pooled_output, sequence_output = self.bert_layer([input_word_ids, input_mask, segment_ids]) 然后： clf_output = sequence_output[:, 0, :] out = Dense(1, activation='sigmoid')(clf_output) 但是我不明白集合输出的用法。不包含所有信息，包括“CLS”的单词嵌入，如果是，为什么我们有池输出？提前感谢！

浏览 3提问于2020-08-12得票数 1

回答已采纳

1回答

来自TensorFlow集线器的BERT编码

、

我使用下面的代码为我的文本分类生成嵌入。 import tensorflow as tf import tensorflow_hub as hub import tensorflow_text as text bert_preprocess =hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3") bert_encoder = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-1

浏览 8提问于2022-02-04得票数 0

1回答

从BERT获取嵌入查找结果

、、、、

在通过BERT传递我的令牌之前，我想对它们的嵌入(嵌入查找层的结果)执行一些处理。允许我们使用以下方法访问嵌入查找的输出： import tensorflow as tf from transformers import BertConfig, BertTokenizer, TFBertModel bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') input_ids = tf.constant(bert_tokenizer.encode("Hello, my dog is cute

浏览 2提问于2020-05-03得票数 4

回答已采纳

4回答

是否可以使用Google BERT来计算两个文本文档之间的相似度？

、、、、

是否可以使用Google BERT来计算两个文本文档之间的相似度？据我所知，BERT的输入应该是有限大小的句子。一些作品使用BERT来计算句子的相似度，例如：是否有BERT done的实现，以便将其用于大型文档而不是句子作为输入(具有数千个单词的文档)？

浏览 1提问于2019-09-11得票数 12

1回答

在使用bert模型作为嵌入向量时，我需要在自己的数据上进行训练吗？

、、

当我尝试huggingface模型时，它给出了以下错误信息： from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") inputs = tokenizer("Hello world!", return_tensors="pt") outputs = mod

浏览 1提问于2021-05-19得票数 0

1回答

如何使用预先训练过的模型进行文本分类？精调模型与预训练模型的比较

、、

我想知道微调后的模型与不经过精细调整的模型相比有多大的改善，我想比较一下预先训练的模型( BERT)和通过对文本分类的预训练模型进行微调所获得的模型(微调BERT )的性能，我知道如何微调BERT来进行文本分类，但不太清楚如何直接使用BERT来实现classification.what呢?下面是微调模型的代码，如何重写它以直接使用经过培训的模型。  from transformers import BertTokenizer, BertModel import torch import torch.nn as nn im

浏览 12提问于2022-08-05得票数 0

1回答

如何微调BERT模型？

、、

class BertClassifier(nn.Module): #Bert Model for Classification Tasks. def __init__(self, freeze_bert=False): """ @param bert: a BertModel object @param classifier: a torch.nn.Module classifier @param freeze_bert (bool): Set `Fals

浏览 10提问于2021-03-11得票数 0

2回答

BERT用于文本分类的最小可能数据集

、、

你有什么经验，适当的数据集大小，为通常的文本分类任务使用一个精练的BERT，如情感分析？ ~100例 ~1000例 ..。 ~10000000例你的经历是什么？

浏览 0提问于2019-09-04得票数 0

1回答

使用BERT提取唯一单词的特征

、、、

我使用BERT对文本中出现的单词进行特征提取，但是目前在bert的官方github ()中的实现只能计算文本中所有单词的特征，这使得它消耗了太多的资源。它有可能适应这个包包吗？谢谢！！

浏览 0提问于2019-04-08得票数 1

回答已采纳

1回答

人们通常如何处理创建较长文本(32000字符)的嵌入向量？

、、

我有一套阿拉伯语播客插曲。我希望将这些转换为嵌入向量，这样我就可以对它们进行相似性比较。以下是有关这几集的简要统计数据： 📷 这是我用的模型 https://huggingface.co/asafaya/bert-base-arabic 因此，我遇到的问题是，我尝试的初始模型只接受512个字符的上下文窗口。这意味着我不能对整个序列进行分析。我试着对文本进行分块，然后取块向量的平均值，但这是行不通的。它似乎制造噪音，因为所有的向量似乎相似，即使他们的文本不是。人们通常如何处理创建较长文本的嵌入向量？

浏览 0提问于2023-05-25得票数 1

1回答

获取句子中每个标记的Bert嵌入

、、、、

我有一个python格式的dataframe，其中有一列文本数据。我需要运行一个循环，在该循环中，我将获取该文本列中的每一行，并为该特定行中的每个标记获取bert嵌入。然后，我需要附加这些向量嵌入，并出于某种目的尝试它。例如“我的名字是奥巴马”为' My‘获取768向量嵌入为' name’获得768向量嵌入为' is‘为’奥巴马‘获得768向量嵌入最终输出:大小为768*4 = 3072的向量嵌入假设每行都有确切的单词数

浏览 1提问于2021-03-02得票数 0

1回答

如何在BERT的帮助下找到段落的上下文？

我正在寻找一种方法来用BERT运行一个简单的例子。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预训练BERT模型。如何将段落传递给BERT并获得主要上下文的文本表示？谢谢! EDTED：示例:我们有一个段落 “我正在寻找一种使用BERT运行一个简单示例的方法。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预先训练的BERT模型。如何将该段落传递给BERT并获得主要上下文的文本表示

浏览 18提问于2019-01-16得票数 1

回答已采纳

1回答

如何用bert嵌入来训练神经网络模型，而不是像手套/快速文本那样的静态嵌入？

、、、、

我想找一些人来训练一个传统的神经网络模型，它的bert嵌入是动态生成的(BERT上下文化嵌入，它为相同的单词生成不同的嵌入，当不同的上下文出现时，它会产生不同的嵌入)。在正常的神经网络模型中，我们会用手套或快速文本嵌入来初始化模型， import torch.nn as nn embed = nn.Embedding(vocab_size, vector_size) embed.weight.data.copy_(some_variable_containing_vectors) 我不想复制像这样的静态向量并使用它进行训练，而是将每一个输入传递给一个BERT模型，并生成动态的单词嵌入，

浏览 0提问于2019-03-27得票数 6

2回答

huggingface -在本地保存微调的模型-以及tokenizer？

、

我只是想知道，如果微调BERT模型并保存它，标记器是否会受到某种影响或发生变化。以后使用保存的BERT模型时，我是否也需要在本地保存记号赋予器以重新加载它？我就是这么做的 bert_model.save_pretrained('./Fine_tune_BERT/') 然后，稍后 bert_model = TFBertModel.from_pretrained('./Fine_tune_BERT/') 但是我是否也需要节省令牌器呢？或者我可以用正常的方式来使用它，比如： tokenizer = BertTokenizer.from_pretrained(

浏览 358提问于2020-10-20得票数 1

回答已采纳

1回答

如何将Bert嵌入提供给LSTM

、、、、

我正在研究一个Bert + MLP模型来解决文本分类问题。本质上，我正在尝试用一个基本的LSTM模型替换MLP模型。可以创建一个嵌入的LSTM吗？或者，最好是创建一个带有嵌入层的LSTM？更具体地说，我很难尝试创建嵌入矩阵，这样我就可以使用Bert embedding创建嵌入层。 def get_bert_embeddings(dataset='gap_corrected_train', dataset_path=TRAIN_PATH, bert_path=BERT_UNCAS

浏览 81提问于2019-04-14得票数 5

回答已采纳

3回答

比较一个文档和一个单词的向量

、、、

所以，我必须比较文章的向量和单个单词的向量。我完全不知道该怎么做。看起来Word2vec和BERT能很好地处理长文本，BERT能处理单个单词。但是如何将长文本与一个单词进行比较呢？

浏览 3提问于2019-03-11得票数 1

1回答

是否有任何预先训练过的字嵌入可以用来分类源代码？

、、、、

我试图对从堆栈溢出中获取的源代码片段进行分类。我正在探索各种技术，如Tf-以色列国防军，角嵌入层与CNN，bert等。因为源代码分类与正常的文本分类问题有很大的不同，所以我正在寻找一些应该最适合当前问题的技术。到目前为止，我已经申请了Tf-以色列国防军，而且我获得了大约75%的精确性。当使用文字CNN与角化嵌入层，我得到60%。我计划下一步实现与伯特相关的模型。我也读过实现‘代码-bert’的论文，但它们仅限于6-8种语言。我的数据集有超过20种语言。我想了解在底层哪种技术对源代码最有效。

浏览 11提问于2022-11-09得票数 0

3回答

用于相似搜索的嵌入存储在哪里？

、、、

我已经询问过堆栈溢出的(在这里)，但我认为将嵌入存储在普通postgres-Database中的方法从一开始就可能存在缺陷。我会在短期内再次蚀刻该应用程式：文本语料库(几十万份文件，包含几段) 用BERT创建嵌入(针对每一段) 应用程序:相似搜索(检索类似段落和参考文档) 我已经看过关于使用BERT等创建嵌入的教程，而且所有这些都很有效。我的症结在于如何管理几百万个嵌入并搜索类似的嵌入。存储它们的位置，加上附加信息(与嵌入相关的原始文本和包含文本的文档)。所以问题是：如何在不使用云环境(数据隐私原因)的情况下，以高效和可搜索的方式存储几百万个嵌入(768维numpy数组)？ Ten

浏览 0提问于2019-11-26得票数 4

1回答

在BERT神经网络模型中，如何通过一次加载上下文进行预测，并对问题的答案进行动态预测？

、、、

我创建了一个工作流，让用户发布一个问题来对该问题进行预测。我使用进行预测，使用进行训练。当我在以下JSON结构的上下文中加载一两个段落时： { "data": [ { "paragraphs": [ { "qas": [ { "question": "question", "id": "65432sd54654dadaad"

浏览 22提问于2019-07-08得票数 0

回答已采纳

2回答

有可能微调伯特做转发预测吗？

、、

我想构建一个分类器来预测用户i是否会转发tweet j。这个数据集很大，包含了1.6亿条推特。每条推文都伴随着一些元数据(例如，转发者是否跟踪推特的用户)。单个tweet的文本标记是BERT ids的有序列表。要获得tweet的嵌入，只需使用it (所以它不是文本)。有可能微调伯特来做预测吗？如果是，您推荐哪些课程/来源来学习如何微调？(我是初学者) 我要补充的是，预测应该是一个概率。如果不可能，我正在考虑将嵌入转换回文本，然后使用我将要训练的任意分类器。

浏览 3提问于2020-04-21得票数 1

回答已采纳

1回答

如何将BERT预训练嵌入与我自己的新数据集一起使用？

、、

我的数据集和自然语言处理任务与作者预先训练的模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大的不同，所以我不能直接微调。有没有什么示例代码/GitHub可以帮助我用自己的数据训练BERT？我希望得到像glove这样的嵌入。非常感谢!

浏览 48提问于2019-06-13得票数 2

1回答

将文本和数字特征结合到预训练的变压器BERT中

、、、

我有一个有3列的数据集：文本元数据(意图从其中提取特征，然后使用这些特征，即数字特征) 目标标签问题1:如何在文本之外使用预先培训的BERT实例？一个理论上的解决方案建议让伯特把文本和另一个神经网络的数值特征输入到这个网络中，然后将它们的输出聚合到另一个神经网络中。这是最有效的方法吗？问题2:如何连接神经网络？你从每个人那里得到输出，然后呢？您从BERT获得分类输出，根据数值特征从MLP获得分类输出。你把它们连在一起，然后把它们喂给另一个MLP，然后得到最终的预测？最后的预测不是不太可靠吗？换句话说，最后一个MLP是否封装了另外两个网络？如果是的话，如果伯特预测90%，但

浏览 0提问于2021-04-23得票数 2

回答已采纳

2回答

如何提高BERT语句变换嵌入的维向量大小

、、、

我使用句子转换器进行语义搜索，但有时它不理解上下文意义，并返回错误的结果。在默认情况下，句子嵌入的向量方是78列，所以我如何增加这个维度，以便它能够理解深层的语境意义。代码： # Load the BERT Model from sentence_transformers import SentenceTransformer model = SentenceTransformer('bert-base-nli-mean-tokens') # Setup a Corpus # A corpus is a list with documents split by senten

浏览 1提问于2021-08-06得票数 3

回答已采纳

1回答

一种用于非监督文本聚类的嵌入句子的方法，比手套词更好？

、、、、

对于无监督文本聚类，关键是文本的init嵌入。如果我们想要对文本使用深簇，那么文本的问题就是如何从深层模型中获得init嵌入。 BERT不能很好地嵌入init。如果我们不使用深度模型，是否有更好的方法来获得比手套文字更好的嵌入？

浏览 0提问于2020-07-17得票数 0

1回答

词的余弦相似度与BERT模型的比较

、、、、

您好，我希望使用BERT模型为一个单词生成相似的单词，这与我们在gensim中使用的生成most_similar单词的方法相同，我发现该方法如下： from transformers import BertTokenizer, BertModel import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') word = "Hello"

浏览 66提问于2021-10-31得票数 1

1回答

单词大小必须精确计算bert_config.json中的vocab_size吗？

、、

我看到了别人的BERT模型，其中vocab.txt的大小是22110，但在bert_config.json中，<code>D0</code>参数的值是21128。我知道这两个数字必须完全相同。是那么回事吗？

浏览 83提问于2021-06-15得票数 2

回答已采纳

1回答

从BertForSequenceClassification中提取特征

、、、

大家好，目前我正在尝试开发一个用于冲突检测的模型。使用和微调BERT模型，我已经得到了相当统计的结果，但我认为使用其他一些功能，我可以获得更好的准确性。我把自己定位在这个Tutorial上。经过微调后，我的模型如下所示： ==== Embedding Layer ==== bert.embeddings.word_embeddings.weight (30000, 768) bert.embeddings.position_embeddings.weight (512, 768) bert.embeddings.token_t

浏览 55提问于2021-03-27得票数 1

回答已采纳

1回答

为什么BERT嵌入会增加令牌的数量？

、、

我是DataScience的新手，并试图为我的问题之一实现伯特嵌入。但我在这里有一个疑问。我试着把下面的一句话嵌入伯特--“闪烁的小星星”。BERT令牌程序生成以下令牌- “##克尔”##克尔“、”小“、”星星“ 但最终嵌入的张量是1,8,1024的维数。为什么令牌的数目是8而不是6？对于任何文本，我观察到，在最后嵌入的标记数量正在增加2。有人能帮助我理解这一点吗？我在这里给你代码片段- from transformers import BertTokenizer, BertForSequenceClassification, BertModel PRE_TRAINED_MODEL_PA

浏览 0提问于2021-01-08得票数 0

回答已采纳

1回答

Bert和SVM分类

、、、

我试图理解标题中的概念，以及它们如何适应二进制分类的任务。根据我的理解，到目前为止，你可以用各种特征提取方法对文本进行编码，这样一个词包。然后，您可以使用类似lib线性的方法来获得一个支持向量机liblinear模型，该模型能够对数据进行分类。另一方面，您可以通过将Bert与稠密层连接起来来建立模型。然后您可以微调这个模型，然后再一次获得一个分类器。你会在哪里使用其中的一个，为什么？

浏览 0提问于2021-01-22得票数 1

1回答

如何在HuggingFace变压器库中获取预训练的BERT模型的中间层输出？

、、、、

(我正在学习关于BERT word嵌入的 author教程，在本教程中，作者访问了BERT模型的中间层。) 我想要的是使用HuggingFace的Transformers库访问TensorFlow2中BERT模型的单个输入令牌的最后4层。因为每个层输出一个长度为768的向量，所以最后4个层的形状为4*768=3072 (对于每个令牌)。如何在TF/keras/TF2中实现这一点，以获得输入令牌的预训练模型的中间层？(稍后，我将尝试为句子中的每个令牌获取令牌，但现在一个令牌就足够了)。我正在使用HuggingFace的BERT模型： !pip install transformers fro

浏览 8提问于2020-04-27得票数 7

回答已采纳

7回答

为什么译码器不是伯特架构的一部分？

、、、

我看不出伯特是如何在不使用解码器的情况下做出预测的，这是之前所有模型的一部分，包括变压器和标准RNN。如何在不使用解码器的情况下在BERT体系结构中进行输出预测？怎么才能完全消除解码器呢？换句话说，我可以用什么解码器和伯特一起生成输出文本？如果BERT只编码，我可以使用什么库/工具从嵌入解码？

浏览 0提问于2019-12-21得票数 22

回答已采纳

1回答

使嵌入相似的火炬损失函数

、、、、

我正在研究一个嵌入模型，其中有一个BERT模型，它接收文本输入并输出多维向量。该模型的目的是为相似的文本找到相似的嵌入(高余弦相似度)，对于不相似的文本寻找不同的嵌入(低余弦相似度)。在小型批处理模式下进行训练时，BERT模型给出N*D维输出，其中N是批处理大小，D是BERT模型的输出维数。此外，我还有一个维数N*N的目标矩阵，如果sentence[i]和sentence[j]在意义上是相似的，则在[i, j]第th位置包含sentence[i]，如果没有，则包含-1。我想做的是通过找到BERT输出中所有嵌入的余弦相似性，并将其与目标矩阵进行比较，找到整个批处理的丢失/错误。我所做的只

浏览 5提问于2020-12-31得票数 0

回答已采纳

4回答

伯特:可以把它用于主题建模吗？

、、

我很难理解BERT的全部功能是什么:可以对文本进行主题建模，就像我们可以用LDA实现的那样？

浏览 0提问于2019-06-05得票数 7

1回答

在不使用终端命令的情况下从BioBERT中提取固定向量？

、、

如果我们想使用来自预先训练过的模型的权重，我们可以在下载所有所需的BioBERT文件之后执行以下终端命令。 os.system('python3 extract_features.py \ --input_file=trial.txt \ --vocab_file=vocab.txt \ --bert_config_file=bert_config.json \ --init_checkpoint=biobert_model.ckpt \ --output_file=output.json') 上面的命令实际上读取包含

浏览 2提问于2019-10-23得票数 0

回答已采纳

1回答

NLP的RNN Keras模型在没有减少验证损失的情况下进行训练时会花费大量时间

、、、、

我已经建立了一个用于实体识别的RNN模型。我使用BERT嵌入，然后通过RNN模型处理结果。然而，当训练模型5个时期时，每个时期似乎需要大约2个小时。而且，验证损失似乎一点也没有减少。我在RTX 2080 GPU上运行该进程。我已经尝试过操纵模型，但没有改进模型。我拥有的数据集大约有400000个句子。这是我的模型： def build_model(max_seq_length, n_tags): in_id = Input(shape=(max_seq_length,), name="input_ids") in_mask = Input(shape=(

浏览 9提问于2019-06-21得票数 2

1回答

BERT能否用于训练用于分类的非文本序列数据？

、、

BERT可以用于非文本序列数据吗？我想试试BERT来解决序列分类问题。数据不是文本。换句话说，我想从头开始训练BERT。我该怎么做？

浏览 42提问于2021-07-13得票数 0

回答已采纳

1回答

BERT词嵌入的大小/范数的意义是什么？

、

我们通常将词嵌入之间的相似度与余弦相似度进行比较，但这只考虑了向量之间的角度，而不是范数。对于word2vec，随着单词在更多的上下文中使用，向量的范数会减少。因此，停用词接近于0，并且非常独特，高意义的词往往是大的向量。BERT是上下文敏感的，所以这个解释并不完全涵盖BERT嵌入。有没有人知道矢量震级对BERT有什么意义？

浏览 1提问于2019-07-23得票数 4

9回答

如何使用Bert进行长文本分类？

、、

我们知道BERT有一个标记的最大长度限制= 512，那么如果一篇文章的长度远远大于512，比如文本中有10000个标记，如何使用BERT？

浏览 3提问于2019-10-31得票数 47

1回答

在分类模型中初始化BERT嵌入

、

我对TensorFlow非常陌生，正在尝试使用BERT进行多任务分类(我在项目的另一部分中已经使用GloVe完成了这项工作)。我的问题是TensorFlow中占位符的概念。我知道它只是一些变量的占位符，将被填充。看，这是我的分类模型中我有问题的部分。我将在下面解释确切的问题。 def bert_emb_lookup(input_ids): # TODO to be implemented; """ X is the input IDs, but a placeholder """ pass class B

浏览 0提问于2019-12-02得票数 0

1回答

Bert单词嵌入的微调

、、、、

我想加载一个预训练的Bert模型，并使用自定义数据集对其进行微调，特别是模型的单词嵌入。任务是使用所选单词的单词嵌入进行进一步分析。值得一提的是，数据集由tweet组成，没有标签。因此，我使用了BertForMaskedLM模型。此任务是否可以使用输入ids (标记化的tweet)作为标签？我没有标签。只有一些推文是随机排列的。从这一点开始，我给出了我写的代码：首先，我清除了数据集中的表情符号、非ASCII码字符等，如以下链接(2.3节)所述：https://www.kaggle.com/jaskaransingh/bert-fine-tuning-with-pytorch 第二，微调

浏览 56提问于2020-10-01得票数 0

1回答

没有名为: bert_embedding的模块。Python

、、

因此，我使用Colab，我有一个问题，进口bert_embedding. 我用： !pip install bert-embedding from bert_embedding import BertEmbedding bert_embedding = BertEmbedding() 错误:没有名为bert_embedding的模块但在文档中，它清楚地说明了我应该这样称呼它：有什么办法解决这个问题吗？谢谢

浏览 6提问于2020-02-25得票数 1

1回答

添加特殊标记会改变所有嵌入- TF Bert拥抱面

、、、

考虑到以下情况， from transformers import TFAutoModel from transformers import BertTokenizer bert = TFAutoModel.from_pretrained('bert-base-cased') tokenizer = BertTokenizer.from_pretrained('bert-base-cased') 我预计，如果向令牌中添加了特殊的令牌，则其余的令牌将保持不变，但却不会。例如，我希望下面的内容应该是相等的，但是所有的标记都会改变。为什么会这样呢？ tokens

浏览 4提问于2021-10-30得票数 0

回答已采纳

1回答

词片标记化与传统柠檬化？

、、

我在看NLP预处理。在某种程度上，我想实现一个上下文敏感的单词嵌入，作为识别词义的一种方式，我正在考虑使用来自BERT的输出来这样做。我注意到伯特使用WordPiece标记化(例如，"play“->”play“+ "##ing")。现在，我使用一个在空格/一些标点符号上拆分的标准标记器对我的文本进行预处理，然后我有一个狐猴(“->"play")。我想知道WordPiece标记化比标准令牌化+柠檬化有什么好处。我知道WordPiece在词汇方面有帮助，但是还有什么其他的吗？也就是说，即使我最终没有使用BERT，我是否应该考虑用字片标记替换我的

浏览 0提问于2019-07-16得票数 7

回答已采纳