为什么自变量中的这个特定序列会导致R GLM中的错误？

在R GLM中，自变量中的特定序列可能会导致错误的原因有多种可能性。以下是一些可能的原因：

数据类型不匹配：特定序列可能包含不兼容的数据类型，例如字符型数据与数值型数据混合。在GLM中，自变量的数据类型需要与模型的要求相匹配，否则会导致错误。
缺失值：特定序列中可能存在缺失值，即NA值。GLM模型默认情况下不允许包含缺失值，因此如果特定序列中存在缺失值，就会导致错误。
共线性：特定序列中的自变量可能存在高度相关性，即共线性。共线性会导致模型无法准确估计自变量的系数，从而导致错误。
非线性关系：特定序列中的自变量与因变量之间可能存在非线性关系。GLM模型默认假设自变量与因变量之间是线性关系，如果存在非线性关系，就会导致错误。
过拟合：特定序列中的自变量数量可能过多，导致模型过于复杂，出现过拟合现象。过拟合会导致模型在训练数据上表现良好，但在新数据上表现较差。

针对以上可能的原因，可以采取以下措施来解决错误：

数据清洗：检查特定序列中的数据类型是否匹配，确保自变量的数据类型与模型要求相符。同时，处理缺失值，可以选择删除包含缺失值的样本或使用合适的方法进行填充。
特征选择：对特定序列中的自变量进行特征选择，排除高度相关的自变量，以避免共线性问题。可以使用相关性分析或正则化方法（如Lasso回归）进行特征选择。
数据转换：如果存在非线性关系，可以尝试对特定序列中的自变量进行数据转换，例如对数转换、多项式转换等，以使其符合线性关系的假设。
正则化：如果特定序列中的自变量数量过多，可以考虑使用正则化方法（如岭回归、Lasso回归）来减少模型复杂度，避免过拟合问题。

总之，要解决自变量中特定序列导致R GLM中的错误，需要仔细检查数据质量、处理数据类型不匹配和缺失值，处理共线性和非线性关系，进行特征选择和模型正则化等操作。

广义线性方法(GLM)能在回归分析中处理预测变量之间的共线性吗？

linear-regression、glm、multivariate-distribution、collinearity

我是机器学习的初学者，我研究过模型的预测变量之间的共线性是一个很大的问题，因为它会导致不可预测的模型行为和一个很大的错误。但是，是否有一些模型(比如GLM)与经典的线性回归不同，可能是“好的”共线性模型？传统的线性回归假设其自变量之间没有相关性。之所以会出现这个问题，是因为我做了一个项目：“如果输入特性是相互关联的，那么最好使用广义线性模型，因为它们的性能要比线性回归好。” 有人能解释一下吗？

浏览 0提问于2020-06-20得票数 2

2回答

改进线性回归模型的技巧

machine-learning、python、regression、linear-regression

我刚刚在包含7个自变量和1个目标变量的数据集上运行了一个线性回归模型。下面是R平方和MSE值。训练集的均方误差: 36530921.0123 训练集的$R^2$值: 0.7477 有人能给我一些建议来提高这个型号的效率吗？编辑:我刚刚实现了同样的问题，使用线性回归和归一化的特性。我得到了以下输出:训练集的均方误差: 5.468490570335696e-10训练集的R2值: 0.9275088299658416训练集的均方误差: 4.111793316375822e-10训练集的R2值: 0.9342888671422529。那么，我们能考虑标准化数据集以获得更好的准确性吗？

浏览 0提问于2018-04-18得票数 3

回答已采纳

2回答

有什么不同的术语，即相关性，相关和共线性？

correlation、collinearity、pearsons-correlation-coefficient

一个网站说，相关性指的是因变量的增加/减少，而自变量的增加/减少。共线性指的是两个或两个以上的自变量协同作用来解释依赖的variable.Could中的变化，有人澄清了这些术语吗？

浏览 0提问于2020-07-24得票数 4

回答已采纳

3回答

线性回归模型

machine-learning、regression、linear-regression

我是机器学习的新手，我想学的第一个概念是线性回归。我读过，要应用线性回归，我需要使用线性模型。从这个假设出发，我知道这是一个简单的线性回归模型： y = w0 + w1x 线性回归的定义是，因变量y应该是参数w的线性组合(但对于自变量x则不一定相同)。所以我们可以说，这也是一个线性回归模型： y = w0 + w1x1 + w2(x2)^2 在这种情况下，我应该说这是一个线性回归模型，因为对于定义来说，w0、w1和w2在表达式中仍然是线性的。即使存在自变量x2的二次项。现在，我有个问题。如下所示的模型： y = w1 x1 + w2 x2 + w3 x3 + w4 x1x2 + w5 (

浏览 0提问于2018-06-26得票数 2

1回答

python中如何从多个自变量和一个因变量绘制图[多元线性回归]

python、machine-learning、plot、linear-regression

我是机器学习的新手，面临着在多元线性回归中如何去除多个自变量的问题。我所经历的步骤: 1)读取数据集2)分离成X和Y)将分类数据编码为数据集包含列:教授、职称、专业等。4)去除虚拟变量5)OLS回归结果。我有7个自变量，OLS后有6个独立variables.Removed，P> 0.05，P值大于0.0 5的显着性水平。您能建议哪些步骤来绘制图形，并删除图像中附加的所有不必要的自变量？如何从所有这些变量中只获取一个自变量。如何使用python检查多重共线性？什么是VIF ?如何利用它检测多重共线性？提前谢谢。如果有语法错误的话，对不起。

浏览 3提问于2018-11-13得票数 0

1回答

特征选择，是否有可能将包装和嵌入式方法结合起来？

machine-learning、python、regression、feature-selection

我用神经网络预测PM10浓度(一个回归问题)。由于包装方法依赖于模型，因此通过对数据集中所有特征进行优化的神经网络模型将不能正常工作(因为包装器每次减少数据集中的特征，就必须重新调整神经网络的隐层大小)。所以我的问题是，我可以使用嵌入方法(Lasso)作为包装方法中的估计量吗？这是我要问的特性选择部分： from mlxtend.feature_selection import SequentialFeatureSelector feature_selector = SequentialFeatureSelector(LassoCV(), k_features=3,

浏览 0提问于2019-09-01得票数 0

回答已采纳

3回答

改进回归模型与特征选择

predictive-modeling、regression、feature-selection、feature-engineering、azure-ml

我正在Azure上工作，并尝试创建一个回归模型来预测一个数值。我将尝试描述我的特点和我做了什么，直到现在。我的数据大约有300万行：功能：从1到25的8个整数特征具有0和1的2个布尔特征从1到10的3个整数特征 2个整数特征，从0到500.000 (分别为1.000.000 )，具有大约4.500个唯一值 1整数特征从20到50 从1到15的整数特征 1整数特征从0到100 标签：整数从10.000到100.000.000，有大约5.000个唯一值我所做的：将数据集拆分为80% (列车)和20% (测试)。然后，我再次将训练数据分成60% (实际培训)和40% (验证)。用许

浏览 0提问于2015-12-24得票数 6

回答已采纳

1回答

用于回归的ANN模型中的特征选择/提取

machine-learning、deep-learning、regression、feature-extraction、feature-selection

我正在尝试拟合具有15个输入参数的回归的ANN模型。这些参数中的一些是相互关联的，并且这种关系不是线性的。也就是说，其中一个输入参数可以表示为其他参数的非线性函数。但我不清楚这些关系，因为我缺乏领域知识。有没有办法找到这些输入参数之间的关系？我试着用pandas相关矩阵找出这些关系，但无法得出任何结论，因为它只讨论了两个参数之间的线性相关性。提前谢谢。

浏览 2提问于2019-07-05得票数 1

1回答

辍学分类

classification、random-forest、logistic-regression

我有一组招聘过程中的数据，其中包含12列分类变量(从性别等二元变量到申请人所在学校的名称等非二进制变量)。最后一列(13)包含“是”或“否”值，该值指示人员是否仍在招聘过程中。这里的想法是建立一个模型，该模型可以预测(相当好的)人员在任何特定阶段退出招聘过程的可能性(有许多阶段，这个领域是所捕获的12个自变量之一)。我正在考虑使用logistic回归来创建模型，但是所有的预测变量都是绝对的，我听说，这对于logistic回归来说并不是个好兆头。另一个因素是，有些字段缺少的值(如性别)无法合理地输入/捕获atm的准确数据。考虑到我的情况，你认为什么方法是一个很好的起点？正在考虑随机林，但

浏览 0提问于2017-08-19得票数 0

1回答

如何运行多个自变量的Beta回归？

为什么在0到1之间绑定的Beta回归不能将许多自变量作为回归变量处理？我有大约30个自变量，我试着去拟合，它显示了错误，比如： optim中的错误(par= start，fn = loglikfun，gr = gradfun，method = method，：optim提供的非有限值只有少数变量是accepting.Now，如果我将所有这些自变量组合在X <- (df$x1 + … + df$x30)中，然后在Y <- df$y中生成因变量，然后运行Beta回归，那么它就有效了，但是我不会得到我想要的各个独立变量的系数。 betareg(Y ~ X, data = df) 那么

浏览 3提问于2021-06-23得票数 0

1回答

在简单的R logistic回归中存在过拟合问题

r、regression、data-analysis、logistic-regression、correlation

我是R的新手，我正在尝试对一组临床数据进行逻辑回归。我的自变量是年龄、体温、白细胞、NLR、C反应蛋白、红细胞压积、血沉、IL6和时间。我的因变量是二项式CRKP。在使用glm.fit之后，我收到了这样的错误消息： glm.fit <- glm(CRKP ~ AGE + TEMP + WBC + NLR + CRP + PCT + ESR, data = cv, family = binomial, subset=train) Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我搜索了

浏览 2提问于2021-06-01得票数 2

1回答

如何为不同的目标范围(或模式)生成多目标回归数据集

python、python-3.x、machine-learning、scikit-learn、regression

我们可以使用sklearn的make_regression()函数生成多目标回归数据集。这里，目标的数量是`2 X, y = make_regression(n_samples=5000, n_features=10, n_informative=7, n_targets=2, random_state=1, noise=5) 现在，我想创建一个多目标数据集，其中target变量的范围(或模式)将不同。因此，不同的ML模型可以很好地对不同的目标进行拟合和预测。假设我在一个数据集中有两个目标。通过Linear、Lasso或Ridge可以很好地拟合和预测目标1，而通过RF、SVR或Knn可以很

浏览 34提问于2021-11-03得票数 0

1回答

50独立变量问题的好的一般回归技术

regression、statistics、data-science-model

我是数据科学和统计学的新手。我遇到了这个问题，它有50个自变量和一个因变量，并试图找出一个很好的回归技术。下面是我执行的流程图：数据挖掘->相关矩阵->维数约简-> (维数约简) ->基本线性回归技术。如果有其他更好的技术或程序，有人能指导我吗？

浏览 0提问于2018-11-07得票数 1

2回答

不相关自变量对因变量的多元回归

statistics、regression

考虑到多元回归(如Y ~ X1 + X2 + X3 )，当cor(X1, Y)、cor(X2, Y)和cor(X3, Y)都是0.2等小值时，您认为是否值得将多元回归模型与数据进行拟合，而且(X1, Y)、(X2, Y)和(X3, Y)的曲线没有(线性、非线性)不相关？总而言之，当每个自变量与因变量(视觉上是线性的和非线性的)不相关时，多元回归模型是否有可能给出显著的系数？对于相同的数据，神经网络等非线性模型是否有可能得到良好的预测结果？

浏览 6提问于2017-09-28得票数 0

2回答

matlab建立非线性模型拟合:两个自变量线性和非

matlab、model

我试图用两个预测变量来拟合一个非线性回归模型。我很难写出我的模型。 Z=因变量x=与z定义关系的自变量：a*tanh(-b*x/a)+c Y与z的关系是线性的。但只有线性因为我的数据范围以下是我到目前为止所拥有的： a*tanh(-b*x/a)+c + (d*y) 理想情况下，我希望有第三个分类自变量，它可以用0或1进行数值表示。提前感谢您的帮助！

浏览 7提问于2016-03-23得票数 1

回答已采纳

1回答

为什么Logistic回归模型比机器学习模型在临床预测研究中表现更好

machine-learning、logistic-regression、binary-classification、linearly-separable

我正在开发二进制分类模型，以预测我的数据集中的医疗状况。我的结果表明，Logistic回归和线性支持向量机的性能一直优于其他ML算法(SVM、NB、MLP和DT)，如下截图所示： 📷 观察最近的研究，我发现了多项关于机器学习在临床预测模型中不优于logistic回归现象的研究和评论，例如对71项研究的系统回顾：https://pubmed.ncbi.nlm.nih.gov/30763612/。我想了解LR比其他更复杂的ML算法性能更好意味着什么？它只是表明我的类是线性可分的吗？

浏览 0提问于2023-03-16得票数 0

回答已采纳

1回答

Lasso回归不会删除两个高度相关的特性

python、scikit-learn、logistic-regression、lasso-regression、regularized

我有两个特性，比如F1和F2，它们之间的相关性约为0.9。当我构建我的模型时，我首先考虑了所有要进入回归模型的特性。一旦我有了我的模型，我就在我的模型上运行Lasso回归，希望这将解决这些特性之间的任何问题。然而，拉索回归保持了F1和F2在我的模型。两个问题： ( i)如果F1和F2高度相关，但Lasso回归仍然保持着两者的相关性，这意味着什么？这是否意味着正规化在某些情况下不起作用？如何调整我的模型或拉索回归模型，以踢出我的模型中的F1或F2？(我正在使用，并设置了惩罚= 'l1‘或’elasticnet‘，尝试了很大或非常小的C值，尝试了’lib线性‘或'saga’求

浏览 0提问于2020-02-08得票数 2

回答已采纳

1回答

自变量和因变量之间的关系

machine-learning、regression、correlation

我有一个数据集，其中有多个自变量，它们可能与因变量有一些关系。我试图找到每个自变量之间的关系，首先直观地绘制每个自变量和因变量之间的散点图以及相关性。但这似乎对我没什么帮助。我能想到的是，当我查看feature1与label的关系时，如果找不到一个好的关系，另一个变量feature2或feature3可能会影响这种关系。如何保持一个变量不受另一个变量的影响，并查看它们之间的关系。实际上，我已经使用VIF和相关性检查了不同特征之间的多重共线性。附言:我实际上是在尝试拟合一个回归模型

浏览 18提问于2019-06-19得票数 0

2回答

Logistic回归模型&R中范畴变量的多重性

r、correlation、glm、logistic-regression

我有一个训练数据集，它有3233行和62列。自变量是“快乐”(Train$欢愉)，这是一个二进制变量。其余61列为分类自变量。我创建了一个逻辑回归模型如下： logModel <- glm(Happy ~ ., data = train, family = binary) 然而，我想减少进入模型的自变量的数量，也许减少到20个左右。我想从消除共线范畴变量开始。有人能解释一下如何确定哪些范畴变量是共线性的，以及我在从模型中删除变量时应该使用的阈值吗？谢谢!

浏览 0提问于2014-05-04得票数 0