如何从HuggingFace Longformer中提取文档嵌入

last_hidden_states = outputs[0] # The last hidden-state is the first element of the output tuple (来自this thread)使用longformer文档示例似乎做了类似的事情，但却令人困惑(特别是。如何设置注意掩码，我假设我希望将其设置为[CLS]标记，该示例将全局注意设置为我认为的随机值。)transformers import LongformerModel, LongformerTokenizer >>> mode

浏览 80提问于2020-09-02得票数 5

1回答

如何使用long- How模型生成句子嵌入

、、、、

我使用的是Hugging mrm8488/longformer-base-4096-finetuned-squadv2预训练模型https://huggingface.co/mrm8488/longformer-base我想生成句子级别的嵌入。我有一个数据框，其中有一个文本列。import torchckpt = "mrm8

浏览 24提问于2021-07-15得票数 2

1回答

Longformer last_hidden_state

、、、

我正在尝试遵循huggingface文档中的这个示例，这里是https://huggingface.co/transformers/model_doc/longformer.html import torchtransformers import LongformerModel, LongformerTokenizer model = LongformerModel.from_pretrained('allenai/longfo

浏览 240提问于2021-03-16得票数 1

回答已采纳

1回答

用自己的NER模型从消息中提取密钥

、、、

我正在开始一个项目，在那里我想从给定的消息中提取密钥。例如，键盘类似于：“硬盘”、“手表”或其他技术组件。我正在处理一个数据集，其中一个技术人员如果维护了给定对象上的某个内容，就会编写一个小文本。这样的模型提取能有多精确？任何一种反馈都会被认可！格列茨

浏览 0提问于2021-06-17得票数 0

2回答

用于文档嵌入的longformer的最后几层

、

使用longformer API返回有限数量的层的正确方法是什么？output = model(**encoded_input)

浏览 4提问于2020-10-06得票数 3

1回答

拥抱面序列分类解冻层

、、、

Truelongformer.embeddings.token_type_embeddings.weightTruelongformer.embeddings.LayerNorm.bias Truelongformer.encode

浏览 7提问于2022-03-22得票数 0

回答已采纳

1回答

无位置嵌入的伯特

、、

我试图在HuggingFace中构建一个管道，它不会使用BERT中的位置嵌入，以便研究特定用例的嵌入作用。我已经查看了文档和代码，但是我还没有找到实现这样一个模型的方法。

浏览 6提问于2022-10-10得票数 0

回答已采纳

1回答

在NLP (文档相似)中，什么是短文本和长文本？

、

什么是NLP中的短文和长文？我正在处理一个包含10到600个单词的文档的数据集，我在问自己是否应该以不同的方式对待它们。另外，我还没有找到在NLP中显式定义短文本和长文本的源。

浏览 0提问于2020-11-10得票数 1

回答已采纳

2回答

如何将NLP与solr集成以进行NLP搜索

、

我正在开发solr 8版本。我想把solr和NLP集成起来，提高搜索的相关性。我找不到任何解决方案。请帮助我配置和集成solr与NLP

浏览 20提问于2020-03-04得票数 1

1回答

从wav2vec2模型在HuggingFace中获取嵌入

、、

我正在尝试使用我自己的数据集从预先训练过的wav2vec2模型(例如来自jonatasgrosman/large 2 v2-大型-xlsr-53- get )中获得嵌入。也就是说，由于数据集相对较小，我将使用这些嵌入来训练支持向量机，以便进行最终分类。True, 然后，我不确定这里的嵌入是否与last_hidden_state

浏览 25提问于2021-09-21得票数 2

回答已采纳

1回答

BERT中NER的正确格式化数据应该是什么样子的？

、、、、

我正在使用Huggingface的transformers库，并希望使用BERT执行NER。我试图找到一个明确的例子，说明如何使用BERT为NER正确格式化数据。从论文和我发现的评论中，我并不完全清楚。"John Johanson lives in Ramat Gan."我

浏览 12提问于2020-02-14得票数 2

回答已采纳

1回答

xdmp:文档过滤器提取嵌入的excel工作表

、

我正在使用xdmp:document-filter从二进制文档中提取文本。这很有效，但是我有一个问题，在一个比方说PPTX中，如果有人嵌入一个由excel表格支持的excel图表，PPTX也会嵌入excel电子表格。现在，xdmp:document-filter确实从嵌入的文档中提取了数据。有没有办法让我不提取嵌入的文档？

浏览 11提问于2017-02-09得票数 0

1回答

如何使用BERT训练大块自定义文本中的单词嵌入？

、、、、

我在这里找到了一个为定制句子生成上下文化单词嵌入的很好的教程：然而，它没有告诉我如何在更大的段落上训练它。我有大约1000个令牌，我想让模型学习。我如何调整链接的代码并将其应用于整个段落，以便每个单词都能从整个文档中学习上下文？

浏览 3提问于2020-10-05得票数 0

2回答

我如何从Huggingface(在sagemaker中)获得嵌入而不是特性？

、、

我有一个文本分类器模型，它依赖于某个拥抱面模型的嵌入。上下文:查看这个的文档，我看到的惟一的sagemaker选项是特征提取。from sagemaker.huggingface import HuggingFaceModel# Hub Model configuration. https://huggingface.co/models &

浏览 5提问于2022-02-18得票数 0

1回答

当应用于单个句子时，BertModel如何知道跳过attention_mask参数？

、

我正在创建一个类，它可以使用预先训练好的BertModel为单个句子和一组句子生成句子嵌入。从示例代码中，我可以看到下面的语句 outputs = self.model(tokens_tensor, segments_tensors) 它没有attention_mask参数。我理解为什么单个句子不需要注意掩码的原因，但是python代码如何知道第二个参数实际上是segments_tensor，因为在文档中，它期望attention_tensors是第二个参数。https:/&#

浏览 91提问于2020-10-12得票数 0

1回答

PyTorch的model.eval() + no_grad()在TensorFlow中等价于什么？

、

我正在尝试提取BERT嵌入并使用tensorflow而不是py手电筒来再现这段代码。我知道tf.stop_gradient()相当于torch.no_grad()，但是model.eval() /两者的组合又如何呢？See the documentation for more details: # https://huggingface.co/transformers/model_doc/bert.html

浏览 12提问于2022-06-22得票数 1

1回答

如何在HuggingFace中拼接特殊标记和单词的单词嵌入？

、、

我试图给Huggingface预训练的BERT记号赋值器增加一个额外的维度。额外的列表示额外的标签。例如，如果单词“dog”的原始嵌入是1,1,1,1,1,1,1，1，1，1，1，那么我可能会添加一个索引为2的特殊列来表示“名词”。因此，新的嵌入变为1，1，1，1，1，1，2。然后，我将把新的输入1，1，1，1，1，1，2输入到Bert模型中。我如何在Huggingface中做到这一点？但是，我希望将原始词汇表的嵌入与记号赋予器的嵌入

浏览 3提问于2021-06-13得票数 0

1回答

TIKA服务器提取嵌入式资源

、

我正在使用TIKA-app (v 1.23)进行一些测试，以便从输入文件中提取嵌入式资源，通过使用app在命令行中指定-z参数，这样做的效果很好。此参数启用嵌入式资源提取，并将资源写入工作目录。但是，我在文档中还没有找到正确的方法，我想知道TIKA的服务器变体提供了这个选项吗？那么，如何使用TIKA-server应用程序提取嵌入式资源呢？请注意，我找的不是嵌入式资源的内容，而是实际的二进制文件数据

浏览 4提问于2020-01-12得票数 0

1回答

针对特定于上下文的嵌入角色微调BERT模型

、、

我正在试图找到关于如何训练BERT模型的信息，可能是从Huggingface Transformers库中，以便嵌入它的输出与我正在使用的文本的上下文更紧密地相关。

浏览 15提问于2021-04-17得票数 3

回答已采纳

1回答

如何改变预训练长形器模型的参数

、、、

我用它来提取句子的嵌入。我想更改token length，max sentence length参数，但我无法这样做。这是密码。model = LongformerModel.from_pretrained('allenai/longformer-base-4096',output_hidden_states = True) tokenizer= LongformerTokenizer.from_pretrained('allenai/longformer-base-409

浏览 4提问于2021-08-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用long- How模型生成句子嵌入

Longformer last_hidden_state

用自己的NER模型从消息中提取密钥

用于文档嵌入的longformer的最后几层

拥抱面序列分类解冻层

无位置嵌入的伯特

在NLP (文档相似)中，什么是短文本和长文本？

如何将NLP与solr集成以进行NLP搜索

从wav2vec2模型在HuggingFace中获取嵌入

BERT中NER的正确格式化数据应该是什么样子的？

xdmp:文档过滤器提取嵌入的excel工作表

如何使用BERT训练大块自定义文本中的单词嵌入？

我如何从Huggingface(在sagemaker中)获得嵌入而不是特性？

当应用于单个句子时，BertModel如何知道跳过attention_mask参数？

PyTorch的model.eval() + no_grad()在TensorFlow中等价于什么？

如何在HuggingFace中拼接特殊标记和单词的单词嵌入？

TIKA服务器提取嵌入式资源

针对特定于上下文的嵌入角色微调BERT模型

如何改变预训练长形器模型的参数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐