BERT嵌入应该在标记或句子上进行吗？

BERT嵌入可以在标记和句子级别上进行。

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的语言模型，它通过在大规模文本数据上进行无监督训练来学习单词和句子的表示。在使用BERT进行自然语言处理任务时，可以选择将BERT嵌入应用于标记级别或句子级别。

在标记级别上，BERT将每个输入文本划分为单词或子词，并为每个单词或子词生成对应的嵌入向量。这种方法适用于需要对文本中的每个单词或子词进行个别处理的任务，如命名实体识别、词性标注等。对于每个标记，可以使用BERT的嵌入向量作为输入特征。

在句子级别上，BERT将整个输入文本作为一个序列，并为整个序列生成一个嵌入向量。这种方法适用于需要对整个句子进行语义理解或文本分类的任务，如情感分析、文本匹配等。对于整个句子，可以使用BERT的嵌入向量作为输入特征。

无论是在标记级别还是句子级别上使用BERT嵌入，都可以通过将其作为输入特征传递给机器学习模型或深度学习模型来完成各种自然语言处理任务。

腾讯云提供了自然语言处理相关的产品，如腾讯云智能语音、腾讯云智能机器翻译等，可以与BERT嵌入结合使用，实现更多的自然语言处理应用。具体产品介绍和链接地址可以参考腾讯云官方网站：https://cloud.tencent.com/product/nlp

页面内容是否对你有帮助？

有帮助

没帮助

BERT嵌入应该在标记或句子上进行吗？

、、、、

我正在制作一个句子分类模型，并在其中使用BERT单词嵌入。由于数据集非常大，我将所有句子组合在一个字符串中，并在由这些句子生成的标记上进行嵌入。s = " ".join(text_list) len(s) 这里s是字符串，text_list包含我想要在其上嵌入单词的句子。然后我将字符串标记化。stokens = tokenizer.tokenize(s) 我的问题是，B

浏览 20提问于2020-08-27得票数 1

1回答

我想加载一个预训练的Bert模型，并使用自定义数据集对其进行微调，特别是模型的单词嵌入。任务是使用所选单词的单词嵌入进行进一步分析。值得一提的是，数据集由tweet组成，没有标签。此任务是否可以使用输入ids (标记化的tweet)作为标签？我没有标签。只有一些推文是随机排列的。从这一点开始，我给出了我写的代码：首先，我清除了数据集中的表情符号、非ASCII码字符等，如以下链接(2.3节)所述：https://www.kaggle.com/jaskaransingh/ber

浏览 56提问于2020-10-01得票数 0

2回答

伯特字嵌入中的元素是什么？

、、、

据我所知，伯特是一个字嵌入，可以微调或直接使用。对于较旧的单词嵌入(word2vec、Glove)，每个单词在嵌入中只表示一次(每个字有一个向量)。这是一个问题，因为它没有考虑到同音词。这对嵌入词本身意味着什么？每个单词标记还有一个向量吗？如果是，如何考虑上下文？如果不是，嵌入的格式是什么？

浏览 0提问于2020-02-11得票数 3

回答已采纳

3回答

如何使用BERT中的嵌入比较句子相似度

、、、、

我需要能够使用诸如余弦相似性之类的东西来比较句子的相似性。要使用它，我首先需要获得每个句子的嵌入向量，然后才能计算余弦相似度。tokenizer_class = BertTokenizer pretrained_weights = 'bert-base-mult

浏览 2提问于2020-03-03得票数 21

回答已采纳

1回答

伯特如何生产CLS令牌？在内部，它是做最大池还是平均池？

、、

我进行了实验，比较最大集合词标记和CLS标记的句子分类和CLS明显获胜。试图了解BERT如何生成CLS令牌嵌入，如果它优于max或avg池。

浏览 0提问于2022-10-18得票数 0

回答已采纳

6回答

如何利用BERT实现句子嵌入？

、、、

如何利用BERT实现句子嵌入？from transformers import BertTokenizersentenceseg_ids=[0 for _ in range(len(padded_tokens))]5.获取伯特词汇中标记的索引c

浏览 0提问于2019-11-04得票数 37

1回答

从BERT模型中提取单词特征

、、

如你所知，我们可以在句子中提取单词的BERT特征。我的问题是，我们是否也可以提取句子中未包含的单词特征？例如，bert特征的单个单词，如“狗”，“人”等。

浏览 140提问于2020-10-15得票数 0

回答已采纳

1回答

BERT令牌器如何产生输入张量形状(b，24,768)？

、、、

在阅读时，我注意到了关于嵌入的评论。 1.将句子托词化并且(我在这里也感到困惑)创建了一个片段嵌入，提供整个句子的信息(什么信息？)所有这些都被加在一起，以创建一个形状张量(b，24,768)，其中24个单词/标记(

浏览 1提问于2021-01-19得票数 2

1回答

BERT序列标记

、、、

我正在使用一个由嵌入层和LSTM组成的模型来执行序列标记，在py电筒+ torchtext中。我已经把句子标记出来了。 BertModel是否需要这两个

浏览 0提问于2020-05-10得票数 0

回答已采纳

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？example sentence", "Each sentence is converted"]问题1) 这是一种在训练旧模型和创建新模型之后获得句子嵌入的正确方法吗我很困惑，因为在拟合过程中，我们给出了两个句子</e

浏览 1提问于2022-01-04得票数 2

1回答

bidirectional_dynamic_rnn中的跳过值

、、、

我希望在整个文档上使用BERT-嵌入来实现NER。一个文档由几个句子组成，每个句子都由标记组成，并有可变的长度。现在，我用BERT为每个句子创建单词嵌入，并为每个句子创建pad。然后，我想在文档的所有标记上使用双向LSTM来执行NER，而不仅仅是在句子上。如果我这样做没有微调伯特(提取特性，如与ElMo嵌入)，那么我可以只是删除填充令牌和连接所有的句子，然后我把他

浏览 0提问于2019-03-31得票数 0

1回答

伯特字嵌入预处理是如何工作的？

、、、

我正在试图弄清楚BERT预处理是干什么的。我是说，它是怎么做的。但我找不到一个很好的解释。如果有人知道的话，我会很感激能找到一个更好和解释更深刻的解决方案的链接。我的问题是，BERT如何在数学上将字符串输入转换为固定大小的数字向量？下面的逻辑步骤是哪些？

浏览 7提问于2021-10-03得票数 1

回答已采纳

1回答

为什么BERT嵌入会增加令牌的数量？

、、

我是DataScience的新手，并试图为我的问题之一实现伯特嵌入。但我在这里有一个疑问。我试着把下面的一句话嵌入伯特--“闪烁的小星星”。BERT令牌程序生成以下令牌- “##克尔”##克尔“、”小“、”星星“为什么令牌的数目是8而不是6？对于任何文本，我观察到，在最后嵌入的标记数量正在增加2。有人能帮助我理解这一点吗？transformers import BertTokenizer, BertForSequenceClassificat

浏览 0提问于2021-01-08得票数 0

回答已采纳

1回答

TLDR Bot -句子标记w/ BERT

、、

我使用简单的BERT分类器将句子标记为重要或不重要。结果是..。不太好。我非常感兴趣的是如何使用LSTM来改进结果。我现在将5个句子分批在一起，计算它们的BERT编码，然后使用两个LSTM层，一个向后，一个向前，来预测这个句子是否重要。不幸的是，我现在计算的是嵌入数的5倍，如果它不起作用，我似乎无法弄清楚如何使用Tensorflow将可变数量的东西输入到BERT，看看是否可以修改一些结果。在这个上下文中是否有其他方法来添加周围的<em

浏览 0提问于2019-11-06得票数 0

1回答

使用嵌入查找文档之间的相似性

、、、、

我需要反映单词顺序的嵌入，所以我不打算使用用单词包或TF/国防军构建的文档向量。理想情况下，我应该使用预先培训过的文档嵌入，比如来自Gensim的doc2vec。如何将新文档映射到预先培训过的嵌入？否则，在Keras/Tensorflow或Py火炬中生成文档嵌入的最简单方法是什么？

浏览 0提问于2020-03-10得票数 1

回答已采纳

2回答

如何使用BERT获得句子中短语的上下文嵌入？

、

我使用更多的从BERT获得句子嵌入。利用这一点，我可以获得嵌入的句子或短语。例如:我可以得到像这样的句子的嵌入，“系统不工作给服务中心，但是在替换”“时没有响应。我还可以嵌入一个短语，比如"no“。但是，我希望在的上下文中嵌入“no”，该系统不能提供给服务中心，但不能响应替换“”。任何关于如何获得这一点的提示都将是有帮助的。提前谢谢。我尝试这样做是因为短语"no response"在不同

浏览 4提问于2020-06-26得票数 1

回答已采纳

1回答

使用非英语文本的预训练模型的BERT句子嵌入

、、、、

我正在尝试应用BERT句子嵌入来从瑞典语文本字符串语料库中查找给定瑞典语文本片段的相似句子。来自sentence_transformers (SBERT)的句子BERT似乎是理想的选择。The quick brown fox jumps over the lazy dog.']然而，他们对非英语句子转换器的选择似乎是有限的我想知道是否有可能并且可能更准确地应用拥抱面孔

浏览 8提问于2020-10-29得票数 0

2回答

如何用预先训练好的BERT将单词表示为嵌入？

、、、、

我需要比较给定的单词，然后我需要将它表示为嵌入。如何使用一些单词词典从伯特中提取嵌入内容，并将其用于进一步的工作？

浏览 0提问于2021-04-13得票数 0

4回答

如何在未标记的数据上微调BERT？

、、、

我想在特定的域上对BERT进行微调。我在文本文件中有该域的文本。我如何使用这些来微调BERT？我目前正在寻找。我的主要目标是使用BERT实现句子嵌入。

浏览 3提问于2020-05-23得票数 6

2回答

句子嵌入的文本相似性

、、

我试图计算不同长度的文本之间的相似性。我目前的做法如下：我平均这些向量来创建最终的特征向量。这给了我相当好的结果，文本的大小大致相同，但我想知道是否有更好的方法，第二步，如果文本有不同的长度。

浏览 0提问于2019-09-19得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BERT嵌入应该在标记或句子上进行吗？

相关·内容

BERT嵌入应该在标记或句子上进行吗？

Bert单词嵌入的微调

伯特字嵌入中的元素是什么？

如何使用BERT中的嵌入比较句子相似度

伯特如何生产CLS令牌？在内部，它是做最大池还是平均池？

如何利用BERT实现句子嵌入？

从BERT模型中提取单词特征

BERT令牌器如何产生输入张量形状(b，24,768)？

BERT序列标记

句子转换器如何预测新实例

bidirectional_dynamic_rnn中的跳过值

伯特字嵌入预处理是如何工作的？

为什么BERT嵌入会增加令牌的数量？

TLDR Bot -句子标记w/ BERT

使用嵌入查找文档之间的相似性

如何使用BERT获得句子中短语的上下文嵌入？

使用非英语文本的预训练模型的BERT句子嵌入

如何用预先训练好的BERT将单词表示为嵌入？

如何在未标记的数据上微调BERT？

句子嵌入的文本相似性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐