BERT:无法复制句子到嵌入操作

文章/答案/技术大牛

发布

1回答

nlp、bert-language-model

我正在尝试将句子转换为嵌入，使用以下代码。import torchtokenizer = BertTokenizer.from_pretrained('bert-base-uncased') tex

浏览 22提问于2021-11-17得票数 0

回答已采纳

1回答

从BERT模型中提取单词特征

word-embedding、bert-language-model、latent-semantic-analysis

如你所知，我们可以在句子中提取单词的BERT特征。我的问题是，我们是否也可以提取句子中未包含的单词特征？例如，bert特征的单个单词，如“狗”，“人”等。

浏览 140提问于2020-10-15得票数 0

回答已采纳

6回答

如何利用BERT实现句子嵌入？

tensorflow、nlp、pytorch、bert

如何利用BERT实现句子嵌入？from transformers import BertTokenizersentenceattn_mask).unsqueeze(0) 把它们喂给伯特 ou

浏览 0提问于2019-11-04得票数 37

3回答

如何使用BERT中的嵌入比较句子相似度

python、vector、nlp、cosine-similarity、huggingface-transformers

我需要能够使用诸如余弦相似性之类的东西来比较句子的相似性。要使用它，我首先需要获得每个句子的嵌入向量，然后才能计算余弦相似度。tokenizer_class = BertTokenizer pretrained_weights = 'bert-base-mult

浏览 2提问于2020-03-03得票数 21

回答已采纳

1回答

我使用简单的BERT分类器将句子标记为重要或不重要。结果是..。不太好。我非常感兴趣的是如何使用LSTM来改进结果。我现在将5个句子分批在一起，计算它们的BERT编码，然后使用两个LSTM层，一个向后，一个向前，来预测这个句子是否重要。不幸的是，我现在计算的是嵌入数的5倍，如果它不起作用，我似乎无法弄清楚如何使用Tensorflow将可变数量的东西输入到BERT，看看是否可以修改一些结果。在这个上下文中是否有其他方法来添加周围的<em

浏览 0提问于2019-11-06得票数 0

1回答

如何将bert的嵌入向量与其他特征结合起来？

python、python-3.x、bert-language-model、word-embedding

数据是句子。因此，为了生成句子的向量/嵌入，我使用一个Bert编码器来获取每个句子的嵌入，然后使用一个简单的knn进行预测。Sentence embeddings_BERT level sub-level label je mange [0.21, 0.56] 2 2.1我希望我的模型在预测标签时考虑到这两个值。我想知道是否必

浏览 1提问于2021-08-17得票数 2

回答已采纳

1回答

用BERT计算嵌入过载问题

python、pytorch、nlp、bert-language-model、embedding

我试着用伯特来计算句子的嵌入量。当我把句子输入到伯特时，我计算出平均池，它被用作句子的嵌入。我的代码可以计算句子的嵌入，但是计算成本很高。我不知道怎么回事，我希望有人能帮我。安装BERTfrom transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert</

浏览 7提问于2022-11-28得票数 1

2回答

如何使用BERT获得句子中短语的上下文嵌入？

nlp、bert-language-model

我使用更多的从BERT获得句子嵌入。利用这一点，我可以获得嵌入的句子或短语。例如:我可以得到像这样的句子的嵌入，“系统不工作给服务中心，但是在替换”“时没有响应。我还可以嵌入一个短语，比如"no“。但是，我希望在的上下文中嵌入“no”，该系统不能提供给服务中心，但不能响应替换“”。任何关于如何获得这一点的提示都将是有帮助的。提前谢谢。我尝试这样做是因为短语"no response"在不同的句子</

浏览 4提问于2020-06-26得票数 1

回答已采纳

5回答

如何使用BERT对相似句子进行聚类

python、nlp、artificial-intelligence、word-embedding、bert-language-model

对于ElMo，FastText和Word2Vec，我平均句子中的单词嵌入，并使用HDBSCAN/KMeans聚类来对相似的句子进行分组。在这篇简短的文章中可以看到一个很好的实现示例：http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machine-learning/ 我想用BERT做同样的事情(使用hugging face中的BERT python包)，但

浏览 367提问于2019-04-11得票数 23

回答已采纳

2回答

伯特字嵌入中的元素是什么？

word-embeddings、nlp、bert、language-model

据我所知，伯特是一个字嵌入，可以微调或直接使用。对于较旧的单词嵌入(word2vec、Glove)，每个单词在嵌入中只表示一次(每个字有一个向量)。这是一个问题，因为它没有考虑到同音词。这对嵌入词本身意味着什么？每个单词标记还有一个向量吗？如果是，如何考虑上下文？如果不是，嵌入的格式是什么？

浏览 0提问于2020-02-11得票数 3

回答已采纳

2回答

句子嵌入的文本相似性

word-embeddings、similarity、similar-documents

我试图计算不同长度的文本之间的相似性。我目前的做法如下：我平均这些向量来创建最终的特征向量。这给了我相当好的结果，文本的大小大致相同，但我想知道是否有更好的方法，第二步，如果文本有不同的长度。

浏览 0提问于2019-09-19得票数 8

回答已采纳

1回答

输入通用句子编码器的数据应该规范化吗？

python、tensorflow、nlp、artificial-intelligence

我目前正在为我的B.Sc使用张量流的通用句子编码器()。论文中，我研究了提取摘要技术。在这项任务的绝大多数技术(如)中，句子首先是规范化的(小写、去掉停用词、lemmantisation)，但我找不到提示句子是否应该首先规范化。真的是这样吗？这很重要吗？

浏览 15提问于2021-02-23得票数 0

回答已采纳

1回答

BERT令牌器如何产生输入张量形状(b，24,768)？

deep-learning、nlp、tokenize、bert-language-model

在阅读时，我注意到了关于嵌入的评论。 1.将句子托词化并且(我在这里也感到困惑)创建了一个片段嵌入，提供整个句子的信息(什么信息？)什么是段嵌入信息？

浏览 1提问于2021-01-19得票数 2

1回答

[SEP]令牌的输出在BERT中捕获了哪些信息？

nlp、word-embeddings、bert

在网上阅读之后，我了解到特殊令牌日志服务的输出表示捕获了一个句子的表示(我是正确的吗？) 我的主要问题是，9个月令牌(T_SEP)的输出嵌入捕获了哪些信息？我的另一个疑问是，如果我将一组句子输入到由9个月分隔的BERT中，那么日志服务的输出嵌入是否包含所有句子的信息？

浏览 0提问于2020-05-02得票数 2

回答已采纳

1回答

如何为领域特定的表征学习任务训练bert模型？

python、embedding、bert-language-model、sentence-transformers

我正在尝试为一些特定类型的文本生成良好的句子嵌入，使用句子转换模型测试相似度，而使用kmeans进行聚类并不能给出好的结果。有什么需要改进的想法吗？我正在考虑在我的数据集上训练任何句子转换器模型(它们只是句子，但没有任何标签)。如何特别针对ny数据重新训练现有模型以生成更好的嵌入。谢谢。

浏览 5提问于2020-12-08得票数 0

1回答

句子转换器如何预测新实例

python、nlp、huggingface-transformers、sentence、sentence-similarity

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？example sentence", "Each sentence is converted"]问题1) 这是一种在训练旧模型和创建新模型之后获得句子嵌入的正确方法吗我很困惑，因为在拟合过程中，我们给出了两个句子</e

浏览 1提问于2022-01-04得票数 2

1回答

从BERT获取嵌入查找结果

python、tensorflow、nlp、huggingface-transformers、bert-language-model

在通过BERT传递我的令牌之前，我想对它们的嵌入(嵌入查找层的结果)执行一些处理。允许我们使用以下方法访问嵌入查找的输出：from transformers import BertConfig, BertTokenizer, TFBertModelbert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') input_ids = tf.con

浏览 2提问于2020-05-03得票数 4

回答已采纳

1回答

如果BERT的[CLS]可以针对各种句子分类目标进行再培训，那么[SEP]呢？

transformer、bert-language-model、huggingface-transformers

在BERT预训练中，CLS标记被嵌入到负责下一个句子预测任务(或者，在某些BERT变体中，与其他任务，如ALBERT的句子顺序预测)的分类器的输入中；这有助于对整个转换器进行预训练，也有助于使CLS位置随时可用于重新训练到其他“句子尺度”任务。虽然CLS可能更容易重新训练，因为transformer已经被训练为在整个句子中将其嵌入的含义注入，而SEP没有这些“连接”(有人会假设)，但这仍然可以通过足够的微调来工作。

浏览 26提问于2020-02-24得票数 1

回答已采纳

1回答

如何在使用BERT时预先计算序列对任务中的一个序列？

deep-learning、nlp、bert、tokenization

伯特使用分隔符标记(9个月)为序列对任务输入两个序列.如果我正确地理解了BERT体系结构，那么注意力就会应用到所有的输入上，从而从一开始就将这两个序列耦合起来。因此，我的问题是:如何在一个序列对任务中预先计算一个序列，同时仍然使用(预先训练的) BERT？我们能结合伯特和其他类型的架构来实现这一点吗？从速度和准确性的角度来看，这样做有意义吗？

浏览 0提问于2021-12-17得票数 1

回答已采纳

4回答

是否可以使用Google BERT来计算两个文本文档之间的相似度？

python、text、scikit-learn、nlp、word-embedding

是否可以使用Google BERT来计算两个文本文档之间的相似度？据我所知，BERT的输入应该是有限大小的句子。一些作品使用BERT来计算句子的相似度，例如：是否有BERT done的实现，以便将其用于大型文档而不是句子作为输入(具有数千个单词的文档)？

浏览 1提问于2019-09-11得票数 12

点击加载更多