腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
大数据集上的回归:为什么准确率会下降?
大数据集上的回归模型准确率下降可能由以下原因导致:
过拟合:当回归模型过度拟合训练数据时,其在新数据上的预测能力会下降。过拟合指的是模型过于复杂,过度适应了训练数据中的噪声和异常值,导致在新数据上的泛化能力较差。解决过拟合问题的方法包括增加训练数据量、使用正则化技术(如L1、L2正则化)和特征选择等。
数据质量问题:大数据集中可能存在数据缺失、异常值、噪声等问题,这些问题会影响回归模型的准确性。在建立回归模型之前,需要对数据进行清洗和预处理,包括处理缺失值、异常值和噪声等。
特征选择不当:回归模型的准确率也可能受到特征选择不当的影响。如果选择的特征与目标变量之间的相关性较低,或者存在多重共线性等问题,都会导致模型的准确率下降。在特征选择时,可以使用相关性分析、主成分分析等方法来选择最相关的特征。
数据分布变化:当大数据集上的回归模型在新的数据分布下进行预测时,由于数据分布的变化,模型的准确率可能会下降。这可能是因为新数据中存在与训练数据不同的特征模式或关系。为了解决这个问题,可以使用领域自适应方法或在线学习方法来适应数据分布的变化。
模型选择不当:回归模型的选择也可能影响准确率。不同的回归模型适用于不同类型的数据和问题。选择合适的回归模型可以提高准确率。常见的回归模型包括线性回归、岭回归、Lasso回归、决策树回归、随机森林回归等。
腾讯云相关产品和产品介绍链接地址:
数据处理与分析:
https://cloud.tencent.com/product/dpa
机器学习平台:
https://cloud.tencent.com/product/tiia
数据仓库:
https://cloud.tencent.com/product/dws
弹性MapReduce:
https://cloud.tencent.com/product/emr
数据集成与迁移:
https://cloud.tencent.com/product/dts
相关搜索:
SciKit-Learn糖尿病数据集上支持向量回归的低R^2得分
为什么iOS 10上的最小高度100vh会导致大窗口?
为什么scipy的curve_fit在基因表达数据上给出了多条回归直线?
为什么xts的endpoints()会忽略区间右边界上的数据?
为什么在macOS上只包含很少数据的Python工具架文件会这么大?
为什么在两个格式相同的不同数据集上训练NER的spacy时会出现问题?
为什么当我从所有的内存学习切换到数据生成器时,我的验证准确率会如此之低?
为什么当我改变数据在csv文件中的位置时,torchtext.legecy.text中的相同数据集的结果会不同?
为什么我不能提高CNN在时尚MNIST数据集上的性能?
为什么我无法在我的数据集上训练YOLOv5?
相关搜索:
SciKit-Learn糖尿病数据集上支持向量回归的低R^2得分
为什么iOS 10上的最小高度100vh会导致大窗口?
为什么scipy的curve_fit在基因表达数据上给出了多条回归直线?
为什么xts的endpoints()会忽略区间右边界上的数据?
为什么在macOS上只包含很少数据的Python工具架文件会这么大?
为什么在两个格式相同的不同数据集上训练NER的spacy时会出现问题?
为什么当我从所有的内存学习切换到数据生成器时,我的验证准确率会如此之低?
为什么当我改变数据在csv文件中的位置时,torchtext.legecy.text中的相同数据集的结果会不同?
为什么我不能提高CNN在时尚MNIST数据集上的性能?
为什么我无法在我的数据集上训练YOLOv5?
页面内容是否对你有帮助?
有帮助
没帮助
相关·
内容
文章
问答
(9999+)
视频
沙龙
1
回答
分类中
的
交叉验证
image-processing
、
classification
、
cross-validation
我有两个不同
的
数据
集
,
数据
集
X和
数据
集
Y.用于分类
的
特征..。Case2。然而,如果我将其中一个
数据
集
用于训练,另一个用于测试,结果
会
严重
下降
,准确
浏览 4
提问于2015-12-05
得票数 1
1
回答
通过增加更多
的
预测器降低
准确率
machine-learning
我已经运行了一些预测模型,如Logistic
回归
、SVM、决策树、.在
数据
集
上
。当我添加更多
的
维数(预测因子)时,我在所有模型中
的
准确率
都会
下降
。我怎么解释这个?
浏览 1
提问于2019-12-09
得票数 0
回答已采纳
0
回答
大
数据
集
上
的
回归
:
为什么
准确率
会
下降
?
matplotlib
、
machine-learning
、
regression
、
linear-regression
、
non-linear-regression
我正在尝试预测人们对olx广告
的
看法。我写了一个抓取器来抓取所有的
数据
(50000)广告。当我执行线性
回归
(在1400个样本
上
)时,我得到了66%
的
accuracy.But,之后我在52000个样本
上
执行,它
下降
到8%。以下是和
的
统计
数据
。我想知道当我使用大型
数据
集
浏览 8
提问于2018-07-17
得票数 0
1
回答
为什么
我在McMahan
的
论文中创建了一个像FedAvg这样
的
非IID
数据
集
,但这个
数据
集
的
测试精度只有0.5?
python
、
tensorflow
、
imbalanced-data
、
tensorflow-federated
我创建了一个非IID
数据
集
,其中我将60000个示例(10个类,每个类有6,000个示例)划分为200个片段,每个片段有300个示例。有100个客户端,我为每个客户端随机分配2个片段。这是一些客户
的
情况。 我使用这个
数据
集
来训练我
的
TFF模型。训练
集
的
准确率
约为0.99,而测试
集
的
准确率
仅为0.5左右。我试了很多次,但都没反应。我认为可能模型是过拟合
的
,所以我添加
浏览 0
提问于2020-04-15
得票数 1
2
回答
决策树和逻辑
回归
在其中一个特征为字符串时
的
性能差异
python
、
scikit-learn
、
decision-trees
、
linear-regression
当我尝试一种不同
的
模型,比如说Logistic
回归
时,性能急剧
下降
,从80%
下降
到30%。如果我能够在DecisionTrees模型中这样使用字符串,我可能
会
接受这个结果,但是既然我对两个模型都使用了相同
的
字符串到整数转换,那么
为什么
会有这么
大
的
差异呢? 我不能说细节,但让我给你打个比方。比方说,您正在根据数百万对象
的
有用性对其进行分类。所以你说锤子是4,螺丝刀6,洗衣机10等等。当然,你有不止一个螺丝刀,有时你<e
浏览 0
提问于2017-01-25
得票数 4
回答已采纳
2
回答
多元线性
回归
100%
准确率
python
、
machine-learning
、
linear-regression
我在多元线性
回归
中得到了100%
的
准确率
。我正在学习去年
的
一个教程。他在相同
的
模型
上
不能达到100%
的
准确率
,但我现在得到了。在我看来很奇怪。这是我
的
代码。我做
的
是对
的
,还是我
的
代码有问题?
浏览 94
提问于2020-10-19
得票数 2
4
回答
OCR训练前馈神经网络
artificial-intelligence
、
neural-network
、
ocr
、
backpropagation
、
feed-forward
对于这个问题,我使用了前馈神经网络,当我训练它识别1,2或3个不同
的
字符时,它似乎是有效
的
。但是,当我试图让网络学习超过3个字符时,它将停滞在40 %- 60%左右
的
错误百分比。我尝试了多层和更少/更多
的
神经元,但我似乎不能正确,现在我想知道一个前馈神经网络是否能够识别出这么多
的
信息。一些统计数字:输入神经元:使用 100 ( 10 * 10)网格绘制字符有人知道我
的
架构可能有什么缺陷吗?输入神经元太多了吗?
浏览 10
提问于2012-03-13
得票数 11
回答已采纳
1
回答
在准确性较好
的
情况下提高roc auc评分
machine-learning
、
scikit-learn
、
binary-classification
、
roc
我有一个
大
尺寸
数据
集
(1155918,55)
的
二进制分类问题。📷
浏览 0
提问于2022-03-14
得票数 1
2
回答
不正确地应用随机森林模型?
random-forest
、
prediction
我对随机森林模型(和一般
的
数据
科学)相当陌生,我想知道我创建
的
模型是否正确。 上下文:我正在创建一个随机森林模型来预测员工自愿离职。问题:测试
集
的
准确率
为97% (AUC .992这似乎太高了,
准确率
为88%,召回率为99%),而训练
集
的
准确率
为96%,但随着我们不断获得新
的
自愿终止,基于该模型
的
概率往往小于.1。我想这是有意义
的
,考虑到在创建模型时,这些员工仍然
浏览 0
提问于2019-11-07
得票数 3
1
回答
关于八度
数据
大小限制
的
澄清
octave
我刚开始研究一个相对较大
的
数据
集
,在Cour何时完成ML课程之后。试图在https://archive.ics.uci.edu/ml/datasets/YearPredictionMSD上工作。用八阶梯度
下降
法进行线性
回归
,训练和测试
的
准确率
为5.2。我尝试添加所有可能
的
二次特性(515345个实例和4275个特性),但是代码在我
的
HPPavintUbuntu14.04中
的</
浏览 0
提问于2014-11-07
得票数 3
回答已采纳
1
回答
归一化
会
降低分类器
的
性能
machine-learning
、
classification
、
random-forest
我正在用我收集
的
一些
数据
研究随机森林。我测试了我
的
分类器,在我
的
测试
集
上
获得了大约89%
的
准确率
。然而,当我将我
的
数据
缩放到零均值和单位方差时,我
的
准确率
下降
了近50%。我偶然发现了
的
帖子,它似乎建议我不需要缩放
数据
来获得最佳性能。 有谁能解释一下
准确率
如此显着
下降
的
可能原因
浏览 1
提问于2014-10-19
得票数 0
1
回答
为什么
手写数字分类
的
主成分太多会导致
准确率
降低?
machine-learning
、
classification
、
pca
我目前正在使用PCA为MNIST
数据
库进行手写数字识别(每个数字大约有1000个观察值和784个特征)。我发现令人困惑
的
一件事是,当它有40台电脑时,
准确率
最高。如果PC
的
数量从这一点开始增长,精度就会开始不断
下降
。 根据我对PCA
的
理解,我认为我拥有的组件越多,我就越能更好地描述
数据
集
。
为什么
我
的
PC太多了,
准确率
就会
下降
?
浏览 1
提问于2019-03-20
得票数 1
1
回答
用朴素贝叶斯分类器可疑
的
低假阳性率?
machine-learning
、
classification
、
svm
、
supervised-learning
、
naive-bayes-classifier
我正在执行钓鱼URL分类,我正在比较平衡
的
2类
数据
集
(合法URL,phishy )
上
的
几个ML分类器。随机森林分类器、Ada Boost分类器、多树分类器和K分类器
的
分类
准确率
达到90%左右,假阳性率达到11~12%。(图)事情是这样
的
。我也尝试过高斯铌,虽然它
的
浏览 0
提问于2020-05-12
得票数 0
回答已采纳
1
回答
建立90%正确模型所需
的
数据
集
的
最小大小是多少?
machine-learning
、
dataset
、
supervised-learning
、
finance
我
的
工作是一个金融
数据
集
的
大小是大约3000。我尝试过监督学习
回归
技术,但不能超过70%
的
准确率
.功能: 10模型尝试:决策树,随机森林,拉索
回归
,岭
回归
,线性
回归
我认为,
数据
集
的
大小太小,不能期望任何好
的
结果超过65%。这很明显,因为机器学习算法本质
上
是对
数据
浏览 0
提问于2019-11-25
得票数 -1
回答已采纳
1
回答
梯度提升树还是神经网络用模型平均?
machine-learning
、
classification
、
neural-network
、
accuracy
、
gbm
我正在处理与保险索赔相关
的
数据
集
,将新获得
的
客户分类为索赔或非索赔。我一直在看其他
的
模特,我偶然发现了这篇博客文章。引起我注意
的
一句
浏览 0
提问于2016-06-10
得票数 3
1
回答
非常低
的
损失和低精度是否表示过拟合?
tensorflow
、
keras
、
deep-learning
、
conv-neural-network
、
lstm
我正在训练一个CNN-LSTM concat模型,经过20个时期后,我得到了69%
的
准确率
和0.04 %
的
损失?我知道非常高
的
训练精度和相对较低
的
验证精度
的
组合表示过拟合,但我想知道低精度和非常低
的
损失是否也表示过拟合。 总体而言,
准确率
呈线性增加,损失呈指数
下降
。
浏览 37
提问于2020-01-30
得票数 0
回答已采纳
2
回答
学习分类:二项式日志
回归
?
python
、
classification
、
scikit-learn
我有一个连续评分从-100到+100
的
文本。我试图把它们分为积极
的
或消极
的
。 如何执行二项式日志
回归
以获得测试
数据
为-100或+100
的
概率?我得到
的
最接近
的
是SGDClassifier(惩罚=‘l2’,alpha=1e-05,n_iter=10),但是当我使用二项式日志
回归
来预测-100和+100
的
概率时,这并没有提供与相同
的
结果。所以我猜这不是正确
的
功能?
浏览 5
提问于2014-08-15
得票数 3
回答已采纳
1
回答
Logistic
回归
给出99%
的
准确率
。会出什么问题呢?
python
、
machine-learning
、
logistic-regression
我
的
数据
集
是形状2300 x 35加上目标变量。我所有的列都是object
数据
类型,它包括数值和分类值,所以我在整个
数据
集
上
运行了labelencoding。所以,我不确定这是否会是问题所在。我运行了Logistic Regression,我得到了99%
的
准确率
。这怎么可能呢?我能做错什么呢?(从训练和测试集中删除目标列) 只有当我将训练
数据
减少到5%以下,而不知道发生了什么时,
准确率
才会
下
浏览 0
提问于2018-03-14
得票数 0
2
回答
多个模型在评估过程中存在极大
的
差异。
machine-learning
、
decision-trees
、
accuracy
、
model-evaluations
、
sgd
我
的
数据
集
有大约100 k个条目,6个特征,标签是简单
的
二进制分类(大约65%
的
0,35%
的
0)。当我在不同
的
模型
上
训练
数据
集
时:随机森林模型、决策树模型、额外树模型、k近邻模型、logistic
回归
模型、sgd模型、稠密神经网络模型等。sgd :准确性63%,真阳性
浏览 0
提问于2021-10-07
得票数 1
回答已采纳
1
回答
训练误差随时代
的
变化而减小
neural-network
、
convolutional-neural-network
我试图在STL-10
数据
集
上
训练一个VGG-19神经网络,其中包含5000幅图像(每个类500幅)。输出类
的
数量是10。我只运行了4个时期
的
代码。我观察到,虽然成本
下降
很小,但训练精度却在
下降
。第一阶段后,成本: 2.304091,训练
准确率
: 11.99%在第四个
浏览 0
提问于2018-03-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数学推导+纯Python实现机器学习算法2:逻辑回归
课后作业(二):如何用一个只有一层隐藏层的神经网络分类Planar data
深度学习中数据集很小是一种什么样的体验
“居高临下,势如破竹”-参数的动量更新方法
常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券