腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
logistic回归对测试数据不平衡与训练的不良分类性能
classification
、
logistic-regression
、
class-imbalance
我试图将logistic回归模型拟合到高维(约15k)的不平衡数据集(0.5/99.5)。我用随机森林来选择最重要的200个特征。观测值在120 K左右。 当我对基于数据集的logistic回归模型进行拟合时(使用Smote进行过采样),在训练f1时,查全率和准确率都很好。但在测试中,精度分数和f1都很差。我认为这是有意义的,因为在培训中,少数人的案例要多得多,而在现实/测试中,只有很小的比例。因此,该算法仍在寻找更多的少数病例,造成了较高的假阳性率。 我在想我能用什么样的方法来提高性能呢? 我目前正在尝试不同的不平衡数据集的抽样方法,也计划尝试PCA。
浏览 0
提问于2017-03-27
得票数 7
回答已采纳
2
回答
不平衡分类:过采样与缩放特征的顺序?
machine-learning
、
classification
、
logistic-regression
当使用不平衡的数据集(例如,欺诈检测)执行分类(例如,逻辑回归)时,是最好在过度采样少数类之前对特征进行缩放/zscore/标准化,还是在缩放特征之前平衡类? 其次,这些步骤的顺序是否会影响最终如何解释特性(当使用所有数据scaled+balanced来训练最终模型时)? 下面是一个例子: 标度第一: 将数据分割成列车/测试折叠 使用所有培训(不平衡)数据计算平均值/std;使用这些计算来缩放培训数据 对培训数据中的少数族裔类进行过抽样(例如,使用SMOTE) 训练数据拟合logistic回归模型 使用平均值/std计算来缩放测试数据 用不平衡的测试数据预测类;评估ac
浏览 0
提问于2018-01-21
得票数 7
2
回答
哪一种内在可解释的模型具有最高的性能?
machine-learning
、
linear-regression
、
logistic-regression
、
explainable-ai
、
interpretation
可解释的人工智能可以通过本质上可解释的模型来实现,比如logistic和线性回归,或者是像沙普这样的临时解释。 我想对表格数据使用一个本质上可以解释的模型来完成分类任务。然而,logistic和线性回归的效果较差。 是否还有其他具有更高性能的内在可解释模型?
浏览 0
提问于2023-02-24
得票数 0
回答已采纳
1
回答
是否应该将确定性模型分成训练和测试数据集进行训练?
machine-learning
、
model
、
deterministic
、
stochastic
我正在研究GLM模型(OLS、Logistic回归、零膨胀等)和一些CART模型(随机森林、LightGBM、CatBoost等)之间的差异。它们是基于随机预测的。 我听说,对于随机模型,我们应该分成训练和测试两部分,以避免过度拟合,这一事实在确定性模型中不会发生,因为它们使用线性规划来寻找最佳参数。 我想就此展开一些讨论。 我的观点是这是真的。确定性模型只是求解方程,它根本不应该对数据进行过拟合,而且它不同于基于随机性的随机模型来进行预测。 但我发现每个课程都说要拆分每个数据集,独立于其确定性或非确定性。
浏览 19
提问于2021-09-22
得票数 1
2
回答
为什么滑雪板logistic回归将权重和截距都正则化?
python
、
scikit-learn
、
regression
在logistic回归中使用正则化参数C(见),使函数的拟合得到很好的定义,避免过拟合或step函数的问题(见)。 然而,logistic回归中的正则化应该只考虑特征的权重,而不是截距(这里还解释了:)。 但似乎sklearn.linear_model.LogisticRegression实际上也规范了拦截。原因如下: 1)仔细考虑上面的链接():sigmod稍微向左移动,靠近拦截0。 2)尝试用logistic曲线和人工最大似然函数拟合数据点。将截距包含到L2范数中,得到与sklearn函数相同的结果。 请提出两个问题: 1)我是否弄错了,这是一个错误,还是有充分的理由使拦截正规化? ( 2
浏览 7
提问于2017-11-02
得票数 4
回答已采纳
2
回答
在R中计算glm函数的训练数据集的AUC
r
、
glm
、
auc
我正在尝试使用glm为我的logistic回归模型的训练数据找到AUC 我将数据拆分成训练集和测试集,使用glm拟合logistic回归模型,计算预测值,并尝试找到AUC d<-read.csv(file.choose(), header=T) set.seed(12345) train = runif(nrow(d))<.5 table(train) fit = glm(y~ ., binomial, d) phat<-predict(fit,type = 'response') d$phat=phat g <- roc(y ~ pha
浏览 67
提问于2019-06-10
得票数 0
2
回答
截距参数的正则化
regression
、
linear-regression
、
logistic-regression
、
regularization
、
cost-function
为什么正则化参数不应用于拦截参数? 根据我所读到的线性和Logistic回归的成本函数,正则化参数(λ)被应用于除截距以外的所有项。例如,这里分别是线性回归和logistic回归的成本函数(注意j从1开始): 📷 📷
浏览 0
提问于2020-05-04
得票数 4
1
回答
范畴独立变量的Logistic回归
regression
、
logistic-regression
、
rstudio-server
我有两个关于logistic回归的问题。 我正在对一个二元相关变量和一个由100多个类别组成的独立变量进行逻辑回归。逻辑回归是否仍然是正确的选择?还是有必要再做一次测试? 我郑重地使用logistic回归来检验独立变量是否与依赖变量有关。在这种情况下,是否有必要将我的数据分成训练和测试集。我可以用什么样的测试来确定我正在工作的模型是否好。
浏览 0
提问于2018-12-04
得票数 0
1
回答
为什么在执行交叉验证之前,基于预测变量和因变量之间低相关性的预测值下降是不正确的?
machine-learning
、
cross-validation
、
feature-selection
假设我有预测因子X1,X2,.,Xn和因变量Y。 我检查了预测因子与Y之间的相关性,以及与Y相关性较低的下降预测因子。现在,我使用Y和剩下的预测因子之间的交叉验证来训练一个logistic回归模型。 这种方法有什么问题?
浏览 2
提问于2016-07-11
得票数 1
回答已采纳
1
回答
避免Python回归多个常量列检测错误
python
、
dataframe
、
machine-learning
、
logistic-regression
、
dask
我用python3和Dask来拟合一个logistic回归模型。我有两个numpy数组x,y,我使用这段代码将它们转换为dask数组。 data = da.from_array(data, chunks=(1000, data.shape[1])) labels = da.from_array(labels) 然后 from dask_ml.linear_model import LogisticRegression l = LogisticRegression() l.fit(data, labels) 拟合logistic回归,但不断得到这个误差 引发ValueError(“检测到多个常
浏览 0
提问于2019-06-13
得票数 0
1
回答
在google云中,哪个是最佳的选择调用训练机器学习模型?
python
、
google-cloud-platform
、
gcp-ai-platform-training
我在python中有一个经过训练的机器学习模型来获得一个回归输出,这个模型是用scikit- learning训练的。 我想将这个预测插入到防火墙中,我将使用云函数来完成它,每天使用云调度程序来调度它。 我的问题是我要把这个受过训练的机器学习模型藏在哪里? 我能把它存储到google存储中并在云函数中调用它来获得预测吗? 还是我应该把它存储在人工智能平台上? 如果答案是进入人工智能平台,为什么?如果我把它存储到AI平台上,我有什么优势?我能用那里的新数据训练模型吗? 我一直在读到,这是可能的,但我不知道为什么更好,如何更好
浏览 3
提问于2019-10-28
得票数 0
回答已采纳
1
回答
Logistic回归的特征选择
logistic-regression
、
feature-selection
法和Logistic回归法都有各自的特征选择。我想使用另一种方法来选择最好的特征,例如,后退逐步特征选择。是否有可能用这种方法代替。 我的数据获得了130多个特征和大约3000个人。因为这是医学癌症数据,我不想使用简单的方法。 关于该项目的更多信息可以在这里看到,它是按照我应该做什么来排列的: 数据预处理 把它们分开测试和训练 列车数据的数据计算 基于训练数据的特征选择 、Kaplan、Meier、和Logistic回归模型的训练 检验模型 请告诉我,使用任何其他功能选择是否错误?我也可以使用我列出的模型的任何提示。
浏览 4
提问于2021-03-12
得票数 0
回答已采纳
1
回答
零SAS过载的泊松回归
count
、
model
、
sas
、
distribution
、
poisson
我正在测试不同的模型,以便对我的数据进行最好的拟合和最稳健的统计。我的数据集包含超过50000个观察值,大约。超过99.3%的数据是零-这样的0.7%是实际事件。 最终查看: 我搜索以下模型中的最佳拟合: Logistic,Poisson,NB,ZIP,ZINB,PLH,NBLH。(NB:负二项式,ZI:零膨胀,P:泊松,LH: Logit栅栏) 我尝试的第一种方法是通过logistic回归估计二元响应。 我的问题:我可以在二进制变量上使用泊松,还是应该用一些整数值来强制二进制变量?例如,具有相关的损失;如果为y=1,则为y_val=y*loss。在我的例子中,y_val的方差是近似的。2.5
浏览 7
提问于2020-02-19
得票数 0
4
回答
“拟合下”和“过度拟合”到底是什么意思?它们从来没有得到明确的定义。
machine-learning
、
overfitting
、
terminology
、
bias
在处理这些条款时,我总是迷失方向。特别是关于这种关系的问题,如低拟合-高偏差(低方差)或过拟合-高方差(低偏差)。以下是我的论点: 来自维基: 在统计中,**过度拟合是“产生一种分析,该分析与某一特定数据集过于密切或准确地对应,因此可能无法拟合额外的数据或可靠地预测未来的观测”。1--过度拟合模型是一种统计模型,包含比数据更多的参数。2的本质是在不知情的情况下提取一些剩余的变化(即噪声),就好像这种变化代表了底层的模型结构一样。3.:45次拟合发生在统计模型不能充分捕捉到数据的底层结构时。未拟合的模型是一个模型,其中一些参数或术语会出现在一个正确指定的模型中。2。 基于这一定义,拟合不足和过度
浏览 0
提问于2021-08-15
得票数 1
1
回答
多项式回归中的正则化系数
machine-learning
、
non-linear-regression
多项式回归中的过拟合,比较训练集的均方误差和验证集的均方误差。 我不太理解这张图。在训练模型以学习参数时,我们必须设置λ=0,因为已经选择了λ的值并继续进行培训是没有意义的。,那么,随着λ值的变化,训练错误是如何变化的呢?将数据集划分为有效数据集和训练数据集,在训练集中对模型进行训练,并通过有效集验证验证结果。
浏览 3
提问于2021-12-25
得票数 1
回答已采纳
2
回答
再论Logistic回归
classification
、
logistic-regression
我正在开发一个数据集,它有一个二元变量,但包含98%的0's和2%的1's,我试图用Logistic回归来预测产品的购买。但由于0's人数众多,模型预测效果不佳,得到了大量的假阳性结果。 请建议我如何处理这件事。
浏览 0
提问于2018-03-12
得票数 0
回答已采纳
4
回答
毫升:分类模式比较
classification
、
logistic-regression
、
model-selection
给定的是我需要用于分类的数据集,我希望比较不同分类模型的性能。让我们假设,我想看看逻辑回归(具有不同的断点)和KNN。如果我按以下方式进行,是否有任何问题: 在培训和验证数据中分离数据(以及用于对获奖模型进行性能评估的测试集)。 在训练集上训练logistic回归模型和KNN分类模型。对于0到1之间的每个截断点t,考虑了logistic回归模型作为分类模型,因此回归模型导致了许多分类模型。 现在,我在一定范围内(假设0.01到0.99)比较了我的所有分类模型(t和KNN)在验证数据上的分类性能。我会选择性能最好的(基于某一指标)的。 我正在和其他人讨论这个问题,他认为t需要被看作是超参数,而这
浏览 0
提问于2020-06-04
得票数 3
1
回答
如何识别Python中的过拟合和欠拟合
python
、
machine-learning
我有一个回归模型。我编写了这个算法的代码: 将训练数据随机分成10个,分为训练数据和验证数据。从下列集合中选择alpha的最佳值:{0.1、1、3、10、33、100、333、1000、3333、10000、33333}。 要选择最佳的alpha超参数值,必须执行以下操作: ·对超参数的每个值执行10次随机分割,将训练数据分解为上述训练和验证数据。 ·对于每一个超参数值,使用它的10个随机分裂,并求出平均训练和验证精度。 ·在图上,绘制平均训练精度(红色)和平均验证精度(蓝色)。每个超参数设置。通过识别过拟合和欠拟合区域来对此图进行注释。 ·打印α超参数的最佳值。 2-对试验数据的预测性能进行
浏览 0
提问于2018-09-03
得票数 0
回答已采纳
4
回答
日志下载可以通过qpi自动下载么?
内容分发网络 CDN
、
官方文档
请描述您的问题 标题:日志管理 - 内容分发网络 - 产品文档 - 帮助与文档 - 腾讯云 地址:https://cloud.tencent.com/document/product/228/6316
浏览 480
提问于2018-02-28
1
回答
哪种机器学习算法最适合于您不确定测试特性/属性的场景?
algorithm
、
machine-learning
、
neural-network
例如:为了进行训练,您使用的数据是用户在表单中填写了所有字段(大约40个字段)以及预期输出的数据。 我们现在建立一个模型(可以是人工神经网络、SVM或logistic回归等)。 最后,用户现在在表单中输入3个字段,并期望得到预测结果。 在这种情况下,我可以使用的最佳ML算法是什么?
浏览 0
提问于2017-09-27
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Logistic回归讲解之泰坦尼克号生存预测(一)
从原理到应用:简述Logistic回归算法
R语言逻辑回归预测分析付费用户
一文了解机器学习必学10大算法
机器学习新手必看十大算法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券