我应用了一个logistic regression
,我想测试一下我的总体模型的统计特性。
现在,伪Rsquared (McFaddon) Rsquared = 1 - L(c)/L(null)
返回模型解释的方差,其中L(c)
表示拟合模型中的最大似然值,L(null)
表示空模型的对应值(没有协变量,只有截距)。
似然检验统计量为LR = 2 * (L(c) - L(null))
统计量,服从Chi-squared
分布,可根据模型自由度进行显着性检验。
无论如何,我使用Chi-squared
来计算一个非常重要的p-value
,但是 pseudo Rsquared
在0.021
?
为什么平方和总体p-值有如此大的差异?
通过对一些测试数据metrics.accuracy_score(y_test, y_pred)
的精度计算,发现测试数据的准确率仅为55%左右(训练数据的准确率约为60%)。
有人能帮我解释我的结果吗?
发布于 2019-12-09 11:22:55
也许有一种相关性是显著的,但影响仍然很小:由于您正在进行分类,您可以检查使用此变量(二进制情况下为1)的示例是否比没有该变量的示例(在二进制情况下为0)成为第1类成员的概率略高/更低:
变量为1的示例属于第1类的概率为50%,而变量为0的示例属于第1类的概率为48%。
如果有很多有这个变量的例子,效果可能仍然是显着的(p值),但是它很难仅仅预测正确的类(解释方差-r平方)。
这可能是一个参考,它可以帮助您从图形上理解另一个问题:https://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values
https://stackoverflow.com/questions/59218845
复制相似问题