BERT和ALBERT的训练数据损失大，准确率低

文章/答案/技术大牛

发布

1回答

python、tensorflow、machine-learning、keras、deep-learning

据我所知，在BERT和ALBERT中，微调应该会给我大约80%或更多的准确率，但我甚至无法接近这个数字： Train on 3600 samples, validate on 400 samples Epoch，如果我在最后一个密集层之前使用dropout层，如果我在最后一个密集层之前使用另一个密集层，或者如果我使用Albert而不是BERT，我总是具有低精度和高损失，并且通常，验证精度高于训练精度

浏览 186提问于2020-04-23得票数 4

1回答

非常低的损失和低精度是否表示过拟合？

tensorflow、keras、deep-learning、conv-neural-network、lstm

我正在训练一个CNN-LSTM concat模型，经过20个时期后，我得到了69%的准确率和0.04 %的损失？我知道非常高的训练精度和相对较低的验证精度的组合表示过拟合，但我想知道低精度和非常低的损失是否也表示过拟合。总体而言，准确率呈线性增加，损失呈指数下降。

浏览 37提问于2020-01-30得票数 0

回答已采纳

1回答

在使用神经网络进行文本分类时，准确率和损失之间是否存在直接关系？

tensorflow、recurrent-neural-network、text-classification、loss-function、cross-entropy

我的网络在一定的准确性下遭受了94%，80%，有时甚至100%的巨大损失。令人惊讶的是，在验证准确率为64%的情况下，损失为96%。我想要理解的是，所发生的损失是否与准确性有直接关系，或者准确性是基于正确获取的数据计算的。我使用分类交叉函数来估计损失。

浏览 196提问于2020-11-10得票数 0

1回答

这是训练模特的有效方法吗？训练损失在1.1921 e-07？

machine-learning、deep-learning、keras、cnn

当我训练角星模型的时候，我得到了这个日志。Epoch 49/50据我所知，在训练一个模型时，我知道理想的损失应该是1到10 (不确定)，但我在e-07的训练中遇到了这个损失值。这是有效的训练吗？还是我哪里做错了?？

浏览 0提问于2019-08-01得票数 0

1回答

在纪元训练期间，准确性的突然提高表明了我的模型的哪些方面？

python、neural-network、tensorflow2.0、conv-neural-network

我现在正在学习卷积神经网络，并在kaggle数字识别器(MNIST)数据集上进行练习。在训练数据时，我注意到，尽管最初的准确率逐渐提高，但两者之间有一个巨大的跃升，即从0.8984到0.9814。作为一个初学者，我想调查一下我的模型在这次跳跃中到底展示了什么。这是时代的图像：，我用黄色圈出了跳跃。提前感谢！

浏览 2提问于2020-09-26得票数 0

1回答

当我训练CNN时，我如何解释每一个时代的损失和准确性？

machine-learning、neural-network、classification、cnn

我对神经网络非常陌生，我正在训练CNN进行图像分类，在训练过程中，我得到以下信息：这告诉我训练的损失和准确性，验证的损失和准确性，如果我错了，请纠正我。，这些量是什么？有什么方法可以理解我，如果我看他们的问题做得很好的话？

浏览 0提问于2020-12-09得票数 0

回答已采纳

1回答

阿尔伯特不收敛- HuggingFace

machine-learning、nlp、text-classification、transformer-model、huggingface-transformers

我正在尝试将经过预先训练的HuggingFace阿尔伯特转换器模型应用到我自己的文本分类任务中，但损失不会超过某个点。这是我的密码：0, 1, 2, 3maxlen=25from transformersencodings.append(tokenizer.encode(t, max_le

浏览 0提问于2020-06-20得票数 4

3回答

准确率、召回率和F-score

precision-recall

我正在开发一个新的系统，它是基于信息检索的概念。我的系统从网上检索研究文章的pdf和ppt文件。当我计算系统的精确度、召回率和f分时，我已经产生了怀疑。我想从小组成员那里澄清这一点。令人怀疑的是，准确率、召回率和f-score之间是否会有巨大的差异。因为我计算的准确率大约是0.913，召回率非常低，比如0.3234，f-score大约是0.432

浏览 3提问于2011-08-23得票数 1

1回答

二分类神经网络给出了很低的误报率和很高的假阴性率。有谁能解释一下

machine-learning、neural-network、statistics、data-science、probability

我正在对不平衡数据进行二进制分类，比率为( 22 :1)意味着如果有22个正面例子，那么就有1个负面例子。我通过使用Over-Sampling来处理这个不平衡问题，它添加了来自少数类的示例副本，以平衡正类和负类。现在我训练了神经网络模型。对于评估，我对低假阳性率(FPr)和低假阴性率(FNr)感兴趣，但它给了我意想不到的结果，非常低的假阳性率(0.02%)和非常高的假阴性率(82

浏览 54提问于2019-12-13得票数 0

1回答

停止CNN模型在高精度和低损失率？

machine-learning、python

我用大量的历次训练我的CNN模型，每次我打印训练损失和准确性，但是在这两个指标中有很多高和低，我想提前停止，例如，损失0.2，准确率在%95或更高，因为我在不止一个时期得到了这个值，我的问题是： 1-列车组或验证组是否提前停车2-如果在验证集上，我是否应该为每一个具有火车组丢失和准确性的时代打印验证损失和准确性？

浏览 0提问于2019-01-25得票数 2

回答已采纳

1回答

为什么在tensorflow 2中使用tf.GradientTape的训练与使用fit API的训练有不同的行为？

python、tensorflow、keras、deep-learning、tensorflow2.0

因此，我在fit和tf.GradientTape上的CiFAR-10数据集上实现并比较了一个简单的图像分类器，并分别训练了20个时期。运行几次后，结果如下用tf.

浏览 5提问于2020-01-14得票数 2

回答已采纳

2回答

验证损失<训练损失和验证精度<训练精度

keras、accuracy、loss-function

我得到了以下结果：val_loss (远)低于train_loss，但是与培训集相比，验证的accuracy也更低。这怎么可能？Epoch 5/10这是我使用的Keras

浏览 0提问于2018-01-03得票数 0

3回答

快速绘图验证和训练准确性

python、python-3.x、machine-learning、plot、fast-ai

我以前使用过Keras，然后我用这种方式绘制了数据集的训练和验证精度-plt.plot(history.history['val_accuracy'])learn.recorder

浏览 0提问于2020-06-23得票数 2

1回答

损失函数负对数似然损失，尽管准确率极高

nlp、pytorch、loss、log-likelihood、sequence-to-sequence

我正在调试一个序列到序列模型，并故意尝试完美地拟合一个大约200个样本(长度在5-50之间的句子对)的小数据集。我在pytorch中使用负对数似然损失。我得到了很低的损失(~1e^-5)，但在同一数据集上的准确率只有33%。我也在3个样本上训练了模型，并获得了100%的准确率，但在训练过程中我遇到了损失。我的印象是，如果预测标

浏览 9提问于2020-07-14得票数 2

1回答

低损失和相同预测等级的原因？

deep-learning、loss-function、accuracy

我正在为二进制分类训练一个cNN。我使用了128批大小，损失正在减少，准确度随着时间的推移而增加。最终精度达到0.99以上，损失小于0.3。但再过几个年代，该模型收敛到了0.6，精度下降了0.5。对模型的检验表明，它总是预测0.5。我用二元交叉熵作为损失函数。对于每一个时代，所有的数据点都会被洗牌。我用的是SGD，学习率是0.01。我是否以较低的准确率，但相当好的损失值，达到了局

浏览 0提问于2018-03-01得票数 0

回答已采纳

2回答

我不能理解我的CNN多类分类模型是否过拟合？

python、tensorflow、keras、evaluation、conv-neural-network

良好的训练，测试和验证的准确性，但奇怪的历史准确性的模型行为:这是我的模型的总结： ? 我执行了执行和预测任务，得到了下一个混淆矩阵： ? 而准确率行为紧随其后： ? 添加损失图以在下一篇文章中阐明更多内容 ? 提前感谢您的任何有用的信息和帮助！

浏览 90提问于2020-08-11得票数 1

回答已采纳

1回答

从bert创建单词嵌入，并将它们输入随机林进行分类

machine-learning、nlp、data-science、classification、bert-language-model

我已经使用伯特基地预先训练的512个维度的模型来生成上下文特征。将这些向量提供给随机森林分类器可以提供83 %的准确率，但在各种研究中，我已经看到伯特最小值提供了90 %的准确率。我也有其他一些特性，如word2vec，词汇，TFIDF和标点符号功能。即使我合并了所有的功能，我也得到了83 %的准确率。我作为基础论文的研究论文提到了92 %的准确率，但是他们使用了

浏览 21提问于2022-04-01得票数 0

1回答

为什么我的验证损失在上升，而我的验证准确性也在上升？

deep-learning、tensorflow

场景:我一直在为cifar10数据集训练CNN。我使用的是tensorflow，还有一个CNN，它有12个conv层和1个密集层，在softmax稠密层之前。我正在使用数据增强以及批处理规范化。在几百个历次之后，我对验证集的准确率最高达到92.73 %。验证损失略有上升，因为我训练更多。一个时代给了我0.295<em

浏览 0提问于2020-01-23得票数 3

回答已采纳

2回答

如何使用监督学习从大数据集中提前识别关键特征，其中大多数数据属于一个类别

machine-learning、classification

我有一个从机器(流数据)中提取的非常大的数据集，其中大多数数据属于一个类别。如果我使用当前数据训练分类器，准确率将非常低。如何识别给定数据中的关键特征？另外，我如何测量时间序列中一些先前特征的概率？

浏览 2提问于2015-06-26得票数 0

3回答

精密微调预培训变压器

nlp、transfer-learning、transformer

预先训练的变压器(GPT2，Bert，XLNET)由于其传输学习能力而广受欢迎和有用。作为提醒:迁移学习的目的是传递从一个领域/任务中获得的知识，并使用该转移/使用该知识来解决一些相关任务。这是通过对大量标签数据(我们已经拥有并且可能很容易获得)进行模型培训来完成的，然后删除最后几层，用与任务相关的数据集对新的相关任务进行微调。因此，我通过冻结前10层(总共11层+1层)，减少

浏览 0提问于2020-08-12得票数 4

点击加载更多