HuggingFace变压器如何在添加额外的keras层后冻结变压器

文章/答案/技术大牛

发布

1回答

keras、deep-learning、nlp、bert-language-model、huggingface-transformers

我想在预训练的BERT模型的最后一层之后添加一个回归层。所以它应该是这样的：output = output[1]但我不知道如何冻结BERT模型，只训练回归层。

浏览 32提问于2021-05-13得票数 0

1回答

在Windows上使用变压器？

huggingface-transformers

我不知道如何在Windows上使用变压器-cli。我让它在Google Colab上工作，同时也在使用它。编辑--我在Windows上(括号是我在CMD中键入的确切命令) 安装transformers==2.8.0)I I transformers==2.8.0 (pip transformers==2.8.0)尝试运行变压器-cli，如Huggingface网站(Transformers)

浏览 10提问于2020-05-03得票数 1

2回答

计算机视觉变压器: ViT没有解码器吗？

computer-vision、transformer、attention-mechanism

v=TrdevFK_am4的一篇题为“图像值16X16字:用于图像识别的变形金刚”的论文那么ViT有一个更简单的体系结构？似乎编码器的输出是MLP的输入，用于分类任务。此外，为了学习的目的，我也被推荐到这个回购https://github.com/lucidra

浏览 0提问于2023-05-06得票数 0

回答已采纳

1回答

基于变压器，如何提高文本的生成效果？

deep-learning、nlp、transformer、text-generation

如果没有像tensor2tensor这样的文本生成模型进行预训练，如何提高基于变压器的结果？在文本生成任务中，变压器的改进思想是什么？

浏览 0提问于2020-08-19得票数 1

回答已采纳

1回答

如何向TensorFlow神经网络添加额外的层？

tensorflow

如何在TensorFlow神经网络中添加额外的层，并且知道附加层不会过分适合？似乎2层不会很有帮助，但它确实给了我91%的准确性，我想100%的准确性。因此，我想增加5到10个额外的层，并尝试和“过度适合”的神经网络。一个超适的训练集是否总能提供100%的准确性？神经网络的基本构造块是。将这一层</e

浏览 6提问于2022-05-29得票数 0

2回答

集极小的多类分类

machine-learning、neural-network、deep-learning、multiclass-classification、text-classification

我正在做一个文本分类任务，其中包含216个标有标签的段落。标签的分布情况如下：键表示的是类，值是样本的数量。以下是我的问题： Q2。如果我们想要一个11级文本分类器，我们需要多少个样本？

浏览 0提问于2021-01-05得票数 2

2回答

在非常小的数据集中对BERT超参数进行细化时，它的好参数范围是多少？

deep-learning、bert、finetuning

我需要完成一个句子分类任务的BERT模型(来自拥抱脸存储库)。然而，我的数据集真的很小，我有12K句，其中只有10%来自积极类。这里有谁有过在小数据集中整理bert的经验吗？

浏览 0提问于2019-12-10得票数 11

3回答

使用自定义X和Y数据训练TFBertForSequenceClassification

nlp、pytorch、tensorflow2.0、huggingface-transformers、bert-language-model

我正在研究一个TextClassification问题，我试图在huggingface-transformers库中给出的TFBertForSequenceClassification上训练我的模型。我遵循了他们的页面上给出的示例，我能够使用tensorflow_datasets.load('glue/mrpc')对给定的示例数据运行示例代码。但是，我找不到一个关于如何加载我自己的自定义数据并将其传递到model.fit(train_dat

浏览 6提问于2020-02-29得票数 9

1回答

阿尔伯特不收敛- HuggingFace

machine-learning、nlp、text-classification、transformer-model、huggingface-transformers

我正在尝试将经过预先训练的HuggingFace阿尔伯特转换器模型应用到我自己的文本分类任务中，但损失不会超过某个点。这是我的密码：0, 1, 2, 3maxlen=25from transformersencodings.append(tokenizer.encode(t, max_length=maxlen, pad_to_max_length=True,

浏览 0提问于2020-06-20得票数 4

1回答

是否有可能从中间层(一般和Keras)开始训练CNN？

keras、transfer-learning

我使用移动网络v2在我的图像上训练一个模型。除了几层外，我已经冻结了所有的层，然后添加了额外的层来进行训练。我希望能够从中间层训练，而不是从一开始就训练。我的问题：如何指定从第一个可训练(非冻结)层开始的培训？我不太明白

浏览 1提问于2019-02-04得票数 0

回答已采纳

1回答

BERT嵌入层

nlp、bert

我试图弄清楚嵌入层是如何为预先训练的伯特基模型工作的。bert-base-uncased')这个BERT模型有199个不同的命名参数，其中前5个属于嵌入层(第一层)。从BERT模型的替代实施来看，位置嵌入是一个静态转换。这似乎也是在变压器模型中进行位置编码的传统方法。考虑到替代实现，它使用正弦和余弦函数在输入中编码交错对。位置嵌入后的下一层</e

浏览 0提问于2021-05-03得票数 3

回答已采纳

1回答

对于图像分类问题，如何选择卷积神经网络中密集层的单元数？

tensorflow、machine-learning、deep-learning、neural-network、conv-neural-network

from keras import layersmodel = models.Sequential()model.add(layers.Dense(1, activation='sigmoid')) 在阅读关于将图像分类为猫或狗的二进制分类问题的代码时，在密集层中，他们使用了512个单元。他们

浏览 31提问于2020-06-20得票数 6

回答已采纳

4回答

伯特:可以把它用于主题建模吗？

topic-model、lda、bert

我很难理解BERT的全部功能是什么:可以对文本进行主题建模，就像我们可以用LDA实现的那样？

浏览 0提问于2019-06-05得票数 7

2回答

巴丹诺-隆关注如何使用查询、值、关键向量？

deep-learning、tensorflow、rnn、transformer、attention-mechanism

在最新的TensorFlow 2.1中，tensorflow.keras.layers子模块包含AdditiveAttention()和Attention()层，分别实现了Bahdanau和Luong的关注点这些新类型的层需要query、value和key输入(但最新的是可选的)。但是，查询、值、关键向量是我经常读到的转换器体系结构。当涉及到巴丹瑙和隆的注意力时，这些向量代表什么？例如，如果我想为一个共同的

浏览 0提问于2020-03-03得票数 2

回答已采纳

1回答

Bert预训练模型，每次提供随机输出

python-3.x、pytorch、huggingface-transformers、bert-language-model

我试图添加一个额外的层后拥抱面对伯特变压器，所以我使用BertForSequenceClassification在我的nn.Module网络。但是，与直接加载模型相比，模型给出了随机输出。(tensor([[-0.3729, -0.2192, 0.1183, 0.0778, -0.2820]],他们应该是同样的模式我在这里发现了一个类似的问题，但没有合理的<

浏览 0提问于2020-05-09得票数 2

4回答

如何在未标记的数据上微调BERT？

nlp、pytorch、huggingface-transformers、bert-language-model

我想在特定的域上对BERT进行微调。我在文本文件中有该域的文本。我如何使用这些来微调BERT？我目前正在寻找。我的主要目标是使用BERT实现句子嵌入。

浏览 3提问于2020-05-23得票数 6

2回答

捕获Scotty / Haskell中的异常

haskell、scotty

我刚开始学习Haskell，并且一直在研究如何处理Scotty中的异常。给出的编译错误如下：catchViolation :: (SqlError -> ConstraintViolation -> IO a) -> IO a -> IO

浏览 3提问于2015-04-06得票数 4

1回答

有没有一种方法可以改变DL4J中神经网络的拓扑结构，而不必对其进行再训练？

java、neural-network、deep-learning、topology、deeplearning4j

我需要对已经经过培训的现有deeplearning4j (DL4J)模型进行更改。网络由一个输入层、一个Graves LSTM和一个RNN输出层组成。我的问题是:是否有可能在LSTM层中添加一个或多个未经训练的神经元，而不必重新构建新的配置模型(我认为这需要再培训)？我想做这样的事情，比如，将一个或多个神经元添加到一个现有的层中，或者将一个完整的层(未经训练)<e

浏览 2提问于2018-05-27得票数 3

回答已采纳

3回答

在haskell程序中使用返回的EitherT

haskell、monads、monad-transformers、either、io-monad

我试图在我正在进行的Haskell项目中使用“引证-解决”包，但是我很难使用真实代码中的任何一种语言。我知道它们是单台变压器，我想我明白这意味着什么，但我似乎无法真正想出如何使用它们。表示我所要做的事情的玩具示例如下：import Text.EditDistanceimport任何帮助都将不胜感激，尤其是从使用角度(而不是从实现角度)指导如何处理单台变压器。编辑：为了反映dfeue

浏览 4提问于2014-09-29得票数 5

回答已采纳

3回答

密集层Keras的输出维数

tensorflow、keras、deep-learning、tensorflow2.0、tf.keras

我有下面的样例from tensorflow.keras import layers optimizer="adam", metrics = ["accuracy"])sam_y = n

浏览 13提问于2021-04-12得票数 1

回答已采纳

点击加载更多