AllenNLP中可分解注意力模型的微调问题

文章/答案/技术大牛

发布

1回答

、

我在微调可分解注意力elmo模型时遇到了麻烦。我已经能够下载模型：wget https://s3-us-west-2.amazonaws.com/allennlp/models/decomposable-attention-elmo-2018.02.19我尝试加载模型，然后使用AllenNLP训练命令行命令在我的数据上对其进行微调。我还创建了一个自定义的</

浏览 131提问于2021-03-29得票数 0

回答已采纳

1回答

使用`Predictor.from_path`加载“可分解注意elmo”时出现问题

decomposable attention model (Parikh et al, 2017) combined with ELMo embeddings trained on SNLI.中提出的可分解注意力模型，并使用demo website描述的代码： predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models*weight 而

浏览 115提问于2020-12-02得票数 0

1回答

如何将AllenNLP模型连接到Microsoft Web Chat或Microsoft Bot Framework

、、、

我需要连接AllenNLP模型到微软网络聊天或微软机器人框架。有可能吗？ AllenNLP是否提供了用于连接的API端点？如何创建模型以及模型在AllenNLP中存储位置？如果任何人有很好的知识，请让我知道你对上述问题的反馈。提前谢谢。

浏览 25提问于2021-03-31得票数 0

1回答

微调阅读理解模型

系统问题：使用下面的命令，我可以训练模型，但我无法判断权重是否正在更新以进行微调，还是仅仅是训练一个新模型？我试图使用以下命令微调新数据(即SQuAD格式)上的阅读理解模型：{elmo":{

浏览 4提问于2021-03-09得票数 0

1回答

如何在AllenNLP中训练语义角色标注模型？

、、

我知道函数，但我不知道如何使用它来训练语义角色标记模型。让我们假设培训样本是生物标记的，例如：the B_ARG1in B_LOCbackground I_LOC

浏览 1提问于2019-03-20得票数 2

1回答

在AllenNLP之外添加一个预先训练过的模型到AllenNLP演示中

、、、、

我正在研究模型的可解释性。我想使用AllenAI演示来检查其他模型上的显着性映射和对抗性攻击方法(在本演示中实现)。我使用教程并在本地机器上运行演示。现在，我想要加载经过预先训练的模型，这是使用这个("cardiffnlp/twitter-roberta-base-sentiment-latest“从hugging面加载的)，我不知道如何将模型添加到演示中我查看了教程，但本指南仅基于在Al

浏览 7提问于2022-06-02得票数 0

1回答

用allennlp建立样条模型

我对allennlp非常陌生，我正在努力构建一个模型，这个模型似乎不完全适合在allennlp中构建模型的标准方式。我想用NLP建立一个管道模型。管道主要由两个模型组成，我们称它们为A和B。首先A被训练，然后根据A，B的整个列车的预测进行训练。我看到的是，人们定义了两个独立的模型，在一个类似的shell脚本中使用命令行接口allennl

浏览 2提问于2021-01-15得票数 0

回答已采纳

1回答

AllenNLP)有没有办法设置评估的配置，特别是阅读器的配置？

我是allenNLP库的新手。为了设置dataset_reader的参数，我想设置求值的配置，比如train (https://github.com/allenai/allennlp-template-config-files/blob/master/training_config/my_model_trained_on_my_dataset.jsonnet) 但我不确定是否有用于评估的配置文件模板，如tra

浏览 31提问于2021-06-18得票数 0

2回答

ModuleNotFoundError:没有名为“allennlp.data.iterators”的模块

、、、

在Google中，我尝试使用以下方法导入BucketIterator：但它一次又一次地引起了同样的错误-在使用导入安装allennlp之后： from allennlp.data.token_indexersimport TokenIndexer,

浏览 24提问于2020-09-23得票数 1

1回答

如何规避AWS封装和大型封装和大型模型的短暂限制

、、、

我试图将AllenNLP安装在lambda函数中，而这个函数又依赖于py手电筒、枕木、spacy和numpy以及其他几个lib。按照和示例的建议，将删除测试和其他文件。我还使用了一个非库达版本的Pytorch，它的大小可以降低。我可以将AllenNLP部署打包到512 to左右。目前，对于AWS Lambda来说，这仍然太大了。将Py

浏览 3提问于2020-01-16得票数 1

1回答

使用BERT模型检索“相关令牌”(已经过微调)

、、、

我已经针对分类任务对BERT模型(使用huggingface库)进行了微调，以预测两种类型的帖子类别(例如，1和0 )。但是，我需要检索被预测为类别1的文档的“相关令牌”(例如)。我知道，一旦我用BERT模型将所有帖子标记为1(例如)，我就可以使用传统的TF-IDF方法。但我有以下问题:有没有可能用经过微调的BERT模型的架构来完成同样的任务？我的</em

浏览 19提问于2021-03-30得票数 0

1回答

在Predictor.from_path中使用AllenNLP时下载模型的位置？

、、

我遵循AllenNLP的示例代码，它有一个方法Predictor.from_pathimportallennlp_models.tagging predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/coref-spanbert-la

浏览 5提问于2022-01-02得票数 2

回答已采纳

1回答

尽管只有少数几个支持“训练”的例子，但在理论上(在“胡德”下)，语境中的很少镜头学习到底是如何工作的呢？

、、、、

最近的模型，如GPT-3语言模型(Brown等人，2020)和Flamingo视觉语言模型(Alayrac等人，2022年)在上下文中使用很少镜头学习。其解释似乎是，很少有射击学习有效，因为模型看了任务描述，然后看了支持示例(这是如何完成给定任务的成功例子)，然后基于模型对分配任务的理解以及它对任务如何成功完成的示例的理解，它就能够根据提示来理解它应该预测什么我的问题：我知道这些

浏览 0提问于2022-10-24得票数 7

1回答

错误训练ELMo - RuntimeError:张量a (5158)的大小必须与张量b (5000)在非单例尺寸1处的大小相匹配。

、、、、

我正在尝试在AllenNLP上训练我自己的自定义AllenNLP模型。在有些情况下，张量a的大小表示为其他值(例如，5300)。当我在一小部分文件上进行测试时，我能够成功地训练模型。根据我的直觉，这是处理我的模型中的标记数的东西。更具体地说，具有5000多个令牌的特定文件。但是，在AllenNLP包中没有参数允许我调整这个参数

浏览 5提问于2022-03-17得票数 0

回答已采纳

2回答

将HuggingFace模型加载到AllenNLP中可以提供不同的预测

、、、

我有一个自定义分类模型，使用基于transformers模型的BERT库进行培训。该模型将文本划分为7个不同的类别。使用以下方法将其保存在目录中：tokenizer.save_pretrained(model_name) 我试图使用allennlp库加载这种持久化模型经过大量的工作，我终于做到了。但是，在allennlp框架内运行模型时

浏览 3提问于2021-11-07得票数 0

回答已采纳

1回答

如何在Allennlp* 2.4.0中使用amp training？*

我已经学会了在https://medium.com/ai2-blog/tutorial-training-on-larger-batches-with-less-memory-in-allennlp-1cd2047d92ad的训练模型上使用AMP和GA技巧，但在2.4.0版中似乎不支持。文件密钥第217行，在create_serialization_dir f“训练配置中‘{ "/root/anaconda3/envs

浏览 76提问于2021-06-28得票数 0

回答已采纳

1回答

在lm微调中前向传递过程中attention_mask的使用

我有一个关于Hugging存储库上的语言模型微调代码的问题。BERT模型的前向方法似乎将一个名为的参数作为输入。指出，注意掩码是将序列批处理在一起时使用的可选参数。此参数向模型指示哪些令牌应该关注，哪些不应该关注。例如，记号赋予器编码方法返回这个注意掩码，一个指示填充索引位置的二进制张量，以便模型不关注它们，这是有意义的。然而，如果我没记错的话，我在语言

浏览 2提问于2020-02-25得票数 8

1回答

AllenNLP是否倾向于伯特？

、、、、

我们关注的任务之一是NER，而且由于AllenNLP支持，我们期待着通过这些新的RoBERTa模型与AllenNLP的crf_tagger相结合，看看我们是否会得到更大的改进。这让我们怀疑AllenNLP可能以某种方式偏向于伯特，然后我们决定为使用变压器和AllenNLP的NER运行一个英语标准基准()，结果我们得到了这种怀疑。AllenNLP的结果是令人惊讶的:

浏览 9提问于2022-08-10得票数 0

1回答

Google 5-由于数字注意头不是模型尺寸的分隔器，所以配置错误很小。

、、

google/mt5-small模型( HuggingFace )的配置文件{ "d_model": 512,...链接到配置文件：据我所知，注意头的数目应该是模型维度的一个分隔器。这在这个配置文件中显然不是正确的。我是否误解了自我注意在mT5中的应用？当我使用AllenNLP</e

浏览 26提问于2022-01-19得票数 1

回答已采纳

1回答

如何对AllenNLP学生进行非英语语言培训？

在SRL演示页面上，您有用于训练SRL Bert模型的命令，如下所示： https://raw.githubusercontent.com/allenai没有完全理解链接中的格式，我在AllenNLP的Ontonotes类代码中找到了这个，这是非常有用的。类代码(见下文)中描述的结构完全相同，或者如果我只有一个用于培训的

浏览 3提问于2021-09-07得票数 0

点击加载更多