Logistic回归返回错误预测_Logistic回归结果变量预测_logistic回归预测比的计算 - 腾讯云开发者社区

classification、logistic-regression、class-imbalance

我试图将logistic回归模型拟合到高维(约15k)的不平衡数据集(0.5/99.5)。我用随机森林来选择最重要的200个特征。观测值在120 K左右。当我对基于数据集的logistic回归模型进行拟合时(使用Smote进行过采样)，在训练f1时，查全率和准确率都很好。但在测试中，精度分数和f1都很差。我认为这是有意义的，因为在培训中，少数人的案例要多得多，而在现实/测试中，只有很小的比例。因此，该算法仍在寻找更多的少数病例，造成了较高的假阳性率。我在想我能用什么样的方法来提高性能呢？我目前正在尝试不同的不平衡数据集的抽样方法，也计划尝试PCA。

浏览 0提问于2017-03-27得票数 7

回答已采纳

2回答

不平衡分类:过采样与缩放特征的顺序？

machine-learning、classification、logistic-regression

当使用不平衡的数据集(例如，欺诈检测)执行分类(例如，逻辑回归)时，是最好在过度采样少数类之前对特征进行缩放/zscore/标准化，还是在缩放特征之前平衡类？其次，这些步骤的顺序是否会影响最终如何解释特性(当使用所有数据scaled+balanced来训练最终模型时)？下面是一个例子：标度第一：将数据分割成列车/测试折叠使用所有培训(不平衡)数据计算平均值/std；使用这些计算来缩放培训数据对培训数据中的少数族裔类进行过抽样(例如，使用SMOTE) 训练数据拟合logistic回归模型使用平均值/std计算来缩放测试数据用不平衡的测试数据预测类；评估ac

浏览 0提问于2018-01-21得票数 7

2回答

哪一种内在可解释的模型具有最高的性能？

machine-learning、linear-regression、logistic-regression、explainable-ai、interpretation

可解释的人工智能可以通过本质上可解释的模型来实现，比如logistic和线性回归，或者是像沙普这样的临时解释。我想对表格数据使用一个本质上可以解释的模型来完成分类任务。然而，logistic和线性回归的效果较差。是否还有其他具有更高性能的内在可解释模型？

浏览 0提问于2023-02-24得票数 0

回答已采纳

1回答

是否应该将确定性模型分成训练和测试数据集进行训练？

machine-learning、model、deterministic、stochastic

我正在研究GLM模型(OLS、Logistic回归、零膨胀等)和一些CART模型(随机森林、LightGBM、CatBoost等)之间的差异。它们是基于随机预测的。我听说，对于随机模型，我们应该分成训练和测试两部分，以避免过度拟合，这一事实在确定性模型中不会发生，因为它们使用线性规划来寻找最佳参数。我想就此展开一些讨论。我的观点是这是真的。确定性模型只是求解方程，它根本不应该对数据进行过拟合，而且它不同于基于随机性的随机模型来进行预测。但我发现每个课程都说要拆分每个数据集，独立于其确定性或非确定性。

浏览 19提问于2021-09-22得票数 1

2回答

为什么滑雪板logistic回归将权重和截距都正则化？

python、scikit-learn、regression

在logistic回归中使用正则化参数C(见)，使函数的拟合得到很好的定义，避免过拟合或step函数的问题(见)。然而，logistic回归中的正则化应该只考虑特征的权重，而不是截距(这里还解释了：)。但似乎sklearn.linear_model.LogisticRegression实际上也规范了拦截。原因如下： 1)仔细考虑上面的链接()：sigmod稍微向左移动，靠近拦截0。 2)尝试用logistic曲线和人工最大似然函数拟合数据点。将截距包含到L2范数中，得到与sklearn函数相同的结果。请提出两个问题： 1)我是否弄错了，这是一个错误，还是有充分的理由使拦截正规化？ ( 2

浏览 7提问于2017-11-02得票数 4

回答已采纳

2回答

在R中计算glm函数的训练数据集的AUC

r、glm、auc

我正在尝试使用glm为我的logistic回归模型的训练数据找到AUC 我将数据拆分成训练集和测试集，使用glm拟合logistic回归模型，计算预测值，并尝试找到AUC d<-read.csv(file.choose(), header=T) set.seed(12345) train = runif(nrow(d))<.5 table(train) fit = glm(y~ ., binomial, d) phat<-predict(fit,type = 'response') d$phat=phat g <- roc(y ~ pha

浏览 67提问于2019-06-10得票数 0

2回答

截距参数的正则化

regression、linear-regression、logistic-regression、regularization、cost-function

为什么正则化参数不应用于拦截参数？根据我所读到的线性和Logistic回归的成本函数，正则化参数(λ)被应用于除截距以外的所有项。例如，这里分别是线性回归和logistic回归的成本函数(注意j从1开始)： 📷 📷

浏览 0提问于2020-05-04得票数 4

1回答

范畴独立变量的Logistic回归

regression、logistic-regression、rstudio-server

我有两个关于logistic回归的问题。我正在对一个二元相关变量和一个由100多个类别组成的独立变量进行逻辑回归。逻辑回归是否仍然是正确的选择？还是有必要再做一次测试？我郑重地使用logistic回归来检验独立变量是否与依赖变量有关。在这种情况下，是否有必要将我的数据分成训练和测试集。我可以用什么样的测试来确定我正在工作的模型是否好。

浏览 0提问于2018-12-04得票数 0

1回答

为什么在执行交叉验证之前，基于预测变量和因变量之间低相关性的预测值下降是不正确的？

machine-learning、cross-validation、feature-selection

假设我有预测因子X1，X2，.，Xn和因变量Y。我检查了预测因子与Y之间的相关性，以及与Y相关性较低的下降预测因子。现在，我使用Y和剩下的预测因子之间的交叉验证来训练一个logistic回归模型。这种方法有什么问题？

浏览 2提问于2016-07-11得票数 1

回答已采纳

1回答

避免Python回归多个常量列检测错误

python、dataframe、machine-learning、logistic-regression、dask

我用python3和Dask来拟合一个logistic回归模型。我有两个numpy数组x，y，我使用这段代码将它们转换为dask数组。 data = da.from_array(data, chunks=(1000, data.shape[1])) labels = da.from_array(labels) 然后 from dask_ml.linear_model import LogisticRegression l = LogisticRegression() l.fit(data, labels) 拟合logistic回归，但不断得到这个误差引发ValueError(“检测到多个常

浏览 0提问于2019-06-13得票数 0

1回答

在google云中，哪个是最佳的选择调用训练机器学习模型？

python、google-cloud-platform、gcp-ai-platform-training

我在python中有一个经过训练的机器学习模型来获得一个回归输出，这个模型是用scikit- learning训练的。我想将这个预测插入到防火墙中，我将使用云函数来完成它，每天使用云调度程序来调度它。我的问题是我要把这个受过训练的机器学习模型藏在哪里？我能把它存储到google存储中并在云函数中调用它来获得预测吗？还是我应该把它存储在人工智能平台上？如果答案是进入人工智能平台，为什么？如果我把它存储到AI平台上，我有什么优势？我能用那里的新数据训练模型吗？我一直在读到，这是可能的，但我不知道为什么更好，如何更好

浏览 3提问于2019-10-28得票数 0

回答已采纳

1回答

Logistic回归的特征选择

logistic-regression、feature-selection

法和Logistic回归法都有各自的特征选择。我想使用另一种方法来选择最好的特征，例如，后退逐步特征选择。是否有可能用这种方法代替。我的数据获得了130多个特征和大约3000个人。因为这是医学癌症数据，我不想使用简单的方法。关于该项目的更多信息可以在这里看到，它是按照我应该做什么来排列的：数据预处理把它们分开测试和训练列车数据的数据计算基于训练数据的特征选择、Kaplan、Meier、和Logistic回归模型的训练检验模型请告诉我，使用任何其他功能选择是否错误？我也可以使用我列出的模型的任何提示。

浏览 4提问于2021-03-12得票数 0

回答已采纳

1回答

零SAS过载的泊松回归

count、model、sas、distribution、poisson

我正在测试不同的模型，以便对我的数据进行最好的拟合和最稳健的统计。我的数据集包含超过50000个观察值，大约。超过99.3%的数据是零-这样的0.7%是实际事件。最终查看：我搜索以下模型中的最佳拟合: Logistic，Poisson，NB，ZIP，ZINB，PLH，NBLH。(NB:负二项式，ZI:零膨胀，P:泊松，LH: Logit栅栏) 我尝试的第一种方法是通过logistic回归估计二元响应。我的问题:我可以在二进制变量上使用泊松，还是应该用一些整数值来强制二进制变量？例如，具有相关的损失；如果为y=1，则为y_val=y*loss。在我的例子中，y_val的方差是近似的。2.5

浏览 7提问于2020-02-19得票数 0

4回答

“拟合下”和“过度拟合”到底是什么意思？它们从来没有得到明确的定义。

machine-learning、overfitting、terminology、bias

在处理这些条款时，我总是迷失方向。特别是关于这种关系的问题，如低拟合-高偏差(低方差)或过拟合-高方差(低偏差)。以下是我的论点：来自维基：在统计中，**过度拟合是“产生一种分析，该分析与某一特定数据集过于密切或准确地对应，因此可能无法拟合额外的数据或可靠地预测未来的观测”。1--过度拟合模型是一种统计模型，包含比数据更多的参数。2的本质是在不知情的情况下提取一些剩余的变化(即噪声)，就好像这种变化代表了底层的模型结构一样。3.：45次拟合发生在统计模型不能充分捕捉到数据的底层结构时。未拟合的模型是一个模型，其中一些参数或术语会出现在一个正确指定的模型中。2。基于这一定义，拟合不足和过度

浏览 0提问于2021-08-15得票数 1

1回答

多项式回归中的正则化系数

machine-learning、non-linear-regression

多项式回归中的过拟合，比较训练集的均方误差和验证集的均方误差。我不太理解这张图。在训练模型以学习参数时，我们必须设置λ=0，因为已经选择了λ的值并继续进行培训是没有意义的。，那么，随着λ值的变化，训练错误是如何变化的呢？将数据集划分为有效数据集和训练数据集，在训练集中对模型进行训练，并通过有效集验证验证结果。

浏览 3提问于2021-12-25得票数 1

回答已采纳

2回答

再论Logistic回归

classification、logistic-regression

我正在开发一个数据集，它有一个二元变量，但包含98%的0's和2%的1's，我试图用Logistic回归来预测产品的购买。但由于0's人数众多，模型预测效果不佳，得到了大量的假阳性结果。请建议我如何处理这件事。

浏览 0提问于2018-03-12得票数 0

回答已采纳

4回答

毫升:分类模式比较

classification、logistic-regression、model-selection

给定的是我需要用于分类的数据集，我希望比较不同分类模型的性能。让我们假设，我想看看逻辑回归(具有不同的断点)和KNN。如果我按以下方式进行，是否有任何问题：在培训和验证数据中分离数据(以及用于对获奖模型进行性能评估的测试集)。在训练集上训练logistic回归模型和KNN分类模型。对于0到1之间的每个截断点t，考虑了logistic回归模型作为分类模型，因此回归模型导致了许多分类模型。现在，我在一定范围内(假设0.01到0.99)比较了我的所有分类模型(t和KNN)在验证数据上的分类性能。我会选择性能最好的(基于某一指标)的。我正在和其他人讨论这个问题，他认为t需要被看作是超参数，而这

浏览 0提问于2020-06-04得票数 3

1回答

如何识别Python中的过拟合和欠拟合

python、machine-learning

我有一个回归模型。我编写了这个算法的代码：将训练数据随机分成10个，分为训练数据和验证数据。从下列集合中选择alpha的最佳值：{0.1、1、3、10、33、100、333、1000、3333、10000、33333}。要选择最佳的alpha超参数值，必须执行以下操作： ·对超参数的每个值执行10次随机分割，将训练数据分解为上述训练和验证数据。 ·对于每一个超参数值，使用它的10个随机分裂，并求出平均训练和验证精度。 ·在图上，绘制平均训练精度(红色)和平均验证精度(蓝色)。每个超参数设置。通过识别过拟合和欠拟合区域来对此图进行注释。 ·打印α超参数的最佳值。 2-对试验数据的预测性能进行

浏览 0提问于2018-09-03得票数 0

回答已采纳

4回答