在使用statsmodel时,我收到了一个奇怪的错误:ValueError: endog must be in the unit interval.
,有人能给我更多关于这个错误的信息吗?谷歌也帮不上忙。
产生错误的代码:
"""
Multiple regression with dummy variables.
"""
import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np
df = pd.read_csv('cost_data.csv')
df.columns = ['Cost', 'R(t)', 'Day of Week']
dummy_ranks = pd.get_dummies(df['Day of Week'], prefix='days')
cols_to_keep = ['Cost', 'R(t)']
data = df[cols_to_keep].join(dummy_ranks.ix[:,'days_2':])
data['intercept'] = 1.0
print(data)
train_cols = data.columns[1:]
logit = sm.Logit(data['Cost'], data[train_cols])
result = logit.fit()
print(result.summary())
以及回溯:
Traceback (most recent call last):
File "multiple_regression_dummy.py", line 20, in <module>
logit = sm.Logit(data['Cost'], data[train_cols])
File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/statsmodels/discrete/discrete_model.py", line 404, in __init__
raise ValueError("endog must be in the unit interval.")
ValueError: endog must be in the unit interval.
发布于 2015-09-11 05:10:40
当我的目标列的值大于1时,我得到了这个错误。请确保您的目标列在0和1之间( Logistic回归需要),然后重试。例如,如果目标列的值为1-5,则将4和5设置为正类,将1,2,3设置为负类。希望这能有所帮助。
发布于 2016-08-14 05:51:07
看起来您遵循了与我相同的逻辑回归教程:http://blog.yhat.com/posts/logistic-regression-and-python.html
当我拟合逻辑回归时,我最终得到了相同的值错误,运行它所需的技巧是确保删除所有缺少值(N/A或np.nan)的数据行。
这可以使用pandas函数pandas.notnull()来完成,如下所示:
data = data[pd.notnull(data['Cost'])],
data = data[pd.notnull(data['R(t)'])],
...
依此类推,直到所有变量都有相同数量的值可用。
希望这对其他人有帮助!
发布于 2022-01-25 09:39:55
我遇到了同样的问题:我将模型从分类更改为回归模型(我在回归问题中使用分类模型.logit )
您仍然可以使用StatsModel,但例如使用OLS,而不是logit。Logit (Logistic回归)用于分类问题,但在这里它似乎是一个回归问题。使用OLS,可以解决这个问题
https://stackoverflow.com/questions/31322370
复制相似问题