大数据集上的回归:为什么准确率会下降？

大数据集上的回归模型准确率下降可能由以下原因导致：

过拟合：当回归模型过度拟合训练数据时，其在新数据上的预测能力会下降。过拟合指的是模型过于复杂，过度适应了训练数据中的噪声和异常值，导致在新数据上的泛化能力较差。解决过拟合问题的方法包括增加训练数据量、使用正则化技术（如L1、L2正则化）和特征选择等。
数据质量问题：大数据集中可能存在数据缺失、异常值、噪声等问题，这些问题会影响回归模型的准确性。在建立回归模型之前，需要对数据进行清洗和预处理，包括处理缺失值、异常值和噪声等。
特征选择不当：回归模型的准确率也可能受到特征选择不当的影响。如果选择的特征与目标变量之间的相关性较低，或者存在多重共线性等问题，都会导致模型的准确率下降。在特征选择时，可以使用相关性分析、主成分分析等方法来选择最相关的特征。
数据分布变化：当大数据集上的回归模型在新的数据分布下进行预测时，由于数据分布的变化，模型的准确率可能会下降。这可能是因为新数据中存在与训练数据不同的特征模式或关系。为了解决这个问题，可以使用领域自适应方法或在线学习方法来适应数据分布的变化。
模型选择不当：回归模型的选择也可能影响准确率。不同的回归模型适用于不同类型的数据和问题。选择合适的回归模型可以提高准确率。常见的回归模型包括线性回归、岭回归、Lasso回归、决策树回归、随机森林回归等。

腾讯云相关产品和产品介绍链接地址：

数据处理与分析：https://cloud.tencent.com/product/dpa
机器学习平台：https://cloud.tencent.com/product/tiia
数据仓库：https://cloud.tencent.com/product/dws
弹性MapReduce：https://cloud.tencent.com/product/emr
数据集成与迁移：https://cloud.tencent.com/product/dts

分类中的交叉验证

image-processing、classification、cross-validation

我有两个不同的数据集，数据集X和数据集Y.用于分类的特征..。Case2。然而，如果我将其中一个数据集用于训练，另一个用于测试，结果会严重下降，准确

浏览 4提问于2015-12-05得票数 1

1回答

通过增加更多的预测器降低准确率

machine-learning

我已经运行了一些预测模型，如Logistic回归、SVM、决策树、.在数据集上。当我添加更多的维数(预测因子)时，我在所有模型中的准确率都会下降。我怎么解释这个？

浏览 1提问于2019-12-09得票数 0

回答已采纳

0回答

大数据集上的回归:为什么准确率会下降？

matplotlib、machine-learning、regression、linear-regression、non-linear-regression

我正在尝试预测人们对olx广告的看法。我写了一个抓取器来抓取所有的数据(50000)广告。当我执行线性回归(在1400个样本上)时，我得到了66%的accuracy.But，之后我在52000个样本上执行，它下降到8%。以下是和的统计数据。我想知道当我使用大型数据集

浏览 8提问于2018-07-17得票数 0

1回答

为什么我在McMahan的论文中创建了一个像FedAvg这样的非IID数据集，但这个数据集的测试精度只有0.5？

python、tensorflow、imbalanced-data、tensorflow-federated

我创建了一个非IID数据集，其中我将60000个示例(10个类，每个类有6,000个示例)划分为200个片段，每个片段有300个示例。有100个客户端，我为每个客户端随机分配2个片段。这是一些客户的情况。我使用这个数据集来训练我的TFF模型。训练集的准确率约为0.99，而测试集的准确率仅为0.5左右。我试了很多次，但都没反应。我认为可能模型是过拟合的，所以我添加

浏览 0提问于2020-04-15得票数 1

2回答

决策树和逻辑回归在其中一个特征为字符串时的性能差异

python、scikit-learn、decision-trees、linear-regression

当我尝试一种不同的模型，比如说Logistic回归时，性能急剧下降，从80%下降到30%。如果我能够在DecisionTrees模型中这样使用字符串，我可能会接受这个结果，但是既然我对两个模型都使用了相同的字符串到整数转换，那么为什么会有这么大的差异呢？我不能说细节，但让我给你打个比方。比方说，您正在根据数百万对象的有用性对其进行分类。所以你说锤子是4，螺丝刀6，洗衣机10等等。当然，你有不止一个螺丝刀，有时你<e

浏览 0提问于2017-01-25得票数 4

回答已采纳

2回答

多元线性回归100%准确率

python、machine-learning、linear-regression

我在多元线性回归中得到了100%的准确率。我正在学习去年的一个教程。他在相同的模型上不能达到100%的准确率，但我现在得到了。在我看来很奇怪。这是我的代码。我做的是对的，还是我的代码有问题？

浏览 94提问于2020-10-19得票数 2

4回答

OCR训练前馈神经网络

artificial-intelligence、neural-network、ocr、backpropagation、feed-forward

对于这个问题，我使用了前馈神经网络，当我训练它识别1，2或3个不同的字符时，它似乎是有效的。但是，当我试图让网络学习超过3个字符时，它将停滞在40 %- 60%左右的错误百分比。我尝试了多层和更少/更多的神经元，但我似乎不能正确，现在我想知道一个前馈神经网络是否能够识别出这么多的信息。一些统计数字：输入神经元:使用 100 ( 10 * 10)网格绘制字符有人知道我的架构可能有什么缺陷吗？输入神经元太多了吗？

浏览 10提问于2012-03-13得票数 11

回答已采纳

1回答

在准确性较好的情况下提高roc auc评分

machine-learning、scikit-learn、binary-classification、roc

我有一个大尺寸数据集(1155918，55)的二进制分类问题。📷

浏览 0提问于2022-03-14得票数 1

2回答

不正确地应用随机森林模型？

random-forest、prediction

我对随机森林模型(和一般的数据科学)相当陌生，我想知道我创建的模型是否正确。上下文:我正在创建一个随机森林模型来预测员工自愿离职。问题:测试集的准确率为97% (AUC .992这似乎太高了，准确率为88%，召回率为99%)，而训练集的准确率为96%，但随着我们不断获得新的自愿终止，基于该模型的概率往往小于.1。我想这是有意义的，考虑到在创建模型时，这些员工仍然

浏览 0提问于2019-11-07得票数 3

1回答

关于八度数据大小限制的澄清

octave

我刚开始研究一个相对较大的数据集，在Cour何时完成ML课程之后。试图在https://archive.ics.uci.edu/ml/datasets/YearPredictionMSD上工作。用八阶梯度下降法进行线性回归，训练和测试的准确率为5.2。我尝试添加所有可能的二次特性(515345个实例和4275个特性)，但是代码在我的HPPavintUbuntu14.04中的</

浏览 0提问于2014-11-07得票数 3

回答已采纳

1回答

归一化会降低分类器的性能

machine-learning、classification、random-forest

我正在用我收集的一些数据研究随机森林。我测试了我的分类器，在我的测试集上获得了大约89%的准确率。然而，当我将我的数据缩放到零均值和单位方差时，我的准确率下降了近50%。我偶然发现了的帖子，它似乎建议我不需要缩放数据来获得最佳性能。有谁能解释一下准确率如此显着下降的可能原因

浏览 1提问于2014-10-19得票数 0

1回答

为什么手写数字分类的主成分太多会导致准确率降低？

machine-learning、classification、pca

我目前正在使用PCA为MNIST数据库进行手写数字识别(每个数字大约有1000个观察值和784个特征)。我发现令人困惑的一件事是，当它有40台电脑时，准确率最高。如果PC的数量从这一点开始增长，精度就会开始不断下降。根据我对PCA的理解，我认为我拥有的组件越多，我就越能更好地描述数据集。为什么我的PC太多了，准确率就会下降？

浏览 1提问于2019-03-20得票数 1

1回答

用朴素贝叶斯分类器可疑的低假阳性率？

machine-learning、classification、svm、supervised-learning、naive-bayes-classifier

我正在执行钓鱼URL分类，我正在比较平衡的2类数据集(合法URL，phishy )上的几个ML分类器。随机森林分类器、Ada Boost分类器、多树分类器和K分类器的分类准确率达到90%左右，假阳性率达到11~12%。(图)事情是这样的。我也尝试过高斯铌，虽然它的

浏览 0提问于2020-05-12得票数 0

回答已采纳

1回答

建立90%正确模型所需的数据集的最小大小是多少？

machine-learning、dataset、supervised-learning、finance

我的工作是一个金融数据集的大小是大约3000。我尝试过监督学习回归技术，但不能超过70%的准确率.功能: 10模型尝试:决策树，随机森林，拉索回归，岭回归，线性回归我认为，数据集的大小太小，不能期望任何好的结果超过65%。这很明显，因为机器学习算法本质上是对数据

浏览 0提问于2019-11-25得票数 -1

回答已采纳

1回答

梯度提升树还是神经网络用模型平均？

machine-learning、classification、neural-network、accuracy、gbm

我正在处理与保险索赔相关的数据集，将新获得的客户分类为索赔或非索赔。我一直在看其他的模特，我偶然发现了这篇博客文章。引起我注意的一句

浏览 0提问于2016-06-10得票数 3

1回答

非常低的损失和低精度是否表示过拟合？

tensorflow、keras、deep-learning、conv-neural-network、lstm

我正在训练一个CNN-LSTM concat模型，经过20个时期后，我得到了69%的准确率和0.04 %的损失？我知道非常高的训练精度和相对较低的验证精度的组合表示过拟合，但我想知道低精度和非常低的损失是否也表示过拟合。总体而言，准确率呈线性增加，损失呈指数下降。

浏览 37提问于2020-01-30得票数 0

回答已采纳

2回答

学习分类:二项式日志回归？

python、classification、scikit-learn

我有一个连续评分从-100到+100的文本。我试图把它们分为积极的或消极的。如何执行二项式日志回归以获得测试数据为-100或+100的概率？我得到的最接近的是SGDClassifier(惩罚=‘l2’，alpha=1e-05，n_iter=10)，但是当我使用二项式日志回归来预测-100和+100的概率时，这并没有提供与相同的结果。所以我猜这不是正确的功能？

浏览 5提问于2014-08-15得票数 3

回答已采纳

1回答

Logistic回归给出99%的准确率。会出什么问题呢？

python、machine-learning、logistic-regression

我的数据集是形状2300 x 35加上目标变量。我所有的列都是object数据类型，它包括数值和分类值，所以我在整个数据集上运行了labelencoding。所以，我不确定这是否会是问题所在。我运行了Logistic Regression，我得到了99%的准确率。这怎么可能呢？我能做错什么呢？(从训练和测试集中删除目标列) 只有当我将训练数据减少到5%以下，而不知道发生了什么时，准确率才会下

浏览 0提问于2018-03-14得票数 0

2回答

多个模型在评估过程中存在极大的差异。

machine-learning、decision-trees、accuracy、model-evaluations、sgd

我的数据集有大约100 k个条目，6个特征，标签是简单的二进制分类(大约65%的0，35%的0)。当我在不同的模型上训练数据集时:随机森林模型、决策树模型、额外树模型、k近邻模型、logistic回归模型、sgd模型、稠密神经网络模型等。sgd :准确性63%，真阳性

浏览 0提问于2021-10-07得票数 1

回答已采纳

1回答

训练误差随时代的变化而减小

neural-network、convolutional-neural-network

我试图在STL-10数据集上训练一个VGG-19神经网络，其中包含5000幅图像(每个类500幅)。输出类的数量是10。我只运行了4个时期的代码。我观察到，虽然成本下降很小，但训练精度却在下降。第一阶段后，成本: 2.304091，训练准确率: 11.99%在第四个

浏览 0提问于2018-03-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

大数据集上的回归:为什么准确率会下降？

相关·内容

分类中的交叉验证

通过增加更多的预测器降低准确率

大数据集上的回归:为什么准确率会下降？

为什么我在McMahan的论文中创建了一个像FedAvg这样的非IID数据集，但这个数据集的测试精度只有0.5？

决策树和逻辑回归在其中一个特征为字符串时的性能差异

多元线性回归100%准确率

OCR训练前馈神经网络

在准确性较好的情况下提高roc auc评分

不正确地应用随机森林模型？

关于八度数据大小限制的澄清

归一化会降低分类器的性能

为什么手写数字分类的主成分太多会导致准确率降低？

用朴素贝叶斯分类器可疑的低假阳性率？

建立90%正确模型所需的数据集的最小大小是多少？

梯度提升树还是神经网络用模型平均？

非常低的损失和低精度是否表示过拟合？

学习分类:二项式日志回归？

Logistic回归给出99%的准确率。会出什么问题呢？

多个模型在评估过程中存在极大的差异。

训练误差随时代的变化而减小

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐