对python和机器学习来说还是个新手。
我正在尝试建立一个逻辑回归模型。我在R中工作以获得lambda,并使用交叉验证来找到最好的模型,现在正在将其转移到python中。
在这里,我创建了一个设计矩阵,并使其变得稀疏。然后运行逻辑回归。它似乎起作用了。
我的问题是,既然我已经说过我的术语item_number是一个类别,我如何知道哪个变量变成了虚拟变量?我如何知道每个类别名称对应的系数?
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression
from sklearn import pre
最近我把我的代码从R复制到Python,我确实需要一些关于代码的帮助。据我所知,sklearn中的逻辑回归仅包括l1或l2正则化项,分别代表套索回归和岭回归。然而,同时实现l1和l2正则化项,即ElasticNet可能要好得多。 在R的情况下,有一个值得注意的包glmnet,它可以完美地部署上述思想,而python中的glmnet包似乎只支持Linux系统,而不是我电脑上的windows10(请参考this)。另外,如果该包能够可视化结果(如收缩路径)会更好。 #logtistic with penalty terms in sklearn
from sklearn.linear_model
在python中实现迭代输入时,我会得到内存错误。python中的迭代输入程序(类似于在R中实现小鼠技术)将行中的每个缺失值视为因变量,行中的所有其他特性都视为自变量。然后对自变量进行回归,计算每行因变量的缺失值。因此,与其用均值、中值等替换缺失值,不如使用回归技术用合成值来填充缺失值。
X_train
Col1 Col2 Col3 Col4 ...........Col100
X_train有100列,有250 k行。
码
from sklearn.experimental import enable_iterative_imputer
# now you can import nor
我有表格的资料
n = number of samples
features: n x 1 matrix
data: n x m matrix
我希望使用相同的features执行多个泊松回归,其中输出值随数据列的不同而变化。目前,我使用sklearn一次进行一次泊松回归,例如我的Python代码看起来像
from sklearn import linear_model
clf = linear_model.PoissonRegressor(fit_intercept=True,alpha=0)
for col in range(m):
clf.fit(features,data[
如果我没有几个类,即3,我期望得到3个广义线性回归系数数组,如在sklearn.linear_model.LogisticRegression中,但statsmodels.discrete.discrete_model.MNLogit提供classes_num -1系数(在本例中为- 2)。
示例:
import statsmodels.api as st
from sklearn.linear_model import LogisticRegression
iris = st.datasets.get_rdataset('iris','datasets')
我在泰坦尼克号数据集上建立了模型,用Logistic回归Succeffullly,它给出了训练集的预测,但不幸的是,我无法在测试数据集上实现。
以下代码可供参考:
training = training[['PassengerId','Sex','Embarked','Pclass','Age','SibSp','Survived']] # 0.78
X = training.iloc[:, :-1]
y = training.iloc[:, -1]
from sklearn.c
我只是一个初学者,我试图实现多项式回归的科学工具包-学习。没有正则化的通常回归效果很好。
regr = linear_model.LinearRegression(copy_X=True)
X = np.array(time_list[0:24]).reshape(24,1)
for i in range(2,10):
X=np.append(X, X**i, 1)
Y = np.array(tempm_list[0:24]).reshape(24,1)
regr.fit(X, Y)
但是,当我试图以完全相同的方式实现Ridge回归时,我会得到以下错误:
regularized_reg