你好,老忠实社区,
这可能是一个虽然,因为我几乎找不到任何材料在这个。
The Problem I有一组澳大利亚新南威尔士州议会实施的犯罪数据,并按议会将其与平均房价合并。我现在正在寻找一种线性回归,试图通过邻里的犯罪来预测房价。问题是,我有49种犯罪,而且只想在我的模型中使用最好的犯罪(统计数字)。
我已经对所有变量和一些变量(使用相关性)进行了回归评分,并获得了.23 - .38的结果,但我希望尽可能完善它--当然,如果有方法的话。
我已经考虑过每一个可能的组合,但根据谷歌的数据,这最终可能会增加几百万美元。
那么,我的朋友们--我怎样才能用python这个dataframe来获得最好的列
我有一个包含60个变量的283个观察值的数据集。我的结果变量是二分法(诊断),可以是两种疾病中的任何一种。我正在比较两种经常表现出许多重叠的疾病,我试图找到有助于区分这两种疾病的特征。我知道套索逻辑回归是这个问题的最好解决方案,但是它不能在不完整的数据集上运行。 所以我用R中的MICE包计算了我丢失的数据,发现大约40次估计对于我所拥有的丢失数据量来说是很好的。 现在,我想对所有40个推定的数据集执行套索逻辑回归,但不知何故,我被困在需要汇集所有这40个数据集的结果的部分。 MICE的with()函数在.glmnet上不起作用 # Impute database with missing v
首先,我有一个非线性模型,我想用它来执行套索回归: ? 我的方法是创建一个新的数据框,其中包含变量向量的所有可能组合,它应该=J+ J^2 在我的数据中有J=19,也就是19个预测值,所以我希望总共产生171列。使用它,我可以使用Sklearn执行套索回归。 到目前为止,我的方法是: for j in df2.iteritems():
for k in df2.iteritems():
df3[j*k] = df2[j]*df2[k] 这个解决方案不起作用,但它是我思考过程的一个例子。我也不太确定如何在每次循环中重命名列,因此每个列都有一个唯一的名称。
我想问你如何使用分类器和确定模型的准确性。我有我的数据集,我已经清理了文本(删除断点,标点符号,删除空行,.)。然后我把它分成火车和测试。由于我想确定一个电子邮件是否是垃圾邮件,我已经使用了常见的分类器,即朴素贝叶斯,支持向量机和逻辑回归。在这里,我只是包括我的火车和测试数据集:没有其他!我正在使用Python运行此分析。我的问题是:应该足够了还是应该实现新的算法?
如果你能给我一个例子,说明一个已经存在的算法是如何被改进的,那也是很好的。
我阅读了大量关于文本分类准确性的文献,在所有的论文中,作者使用支持向量机、Na ve Bayes、logistic回归等方法对垃圾邮件进行分类。但我不知道
最近我把我的代码从R复制到Python,我确实需要一些关于代码的帮助。据我所知,sklearn中的逻辑回归仅包括l1或l2正则化项,分别代表套索回归和岭回归。然而,同时实现l1和l2正则化项,即ElasticNet可能要好得多。 在R的情况下,有一个值得注意的包glmnet,它可以完美地部署上述思想,而python中的glmnet包似乎只支持Linux系统,而不是我电脑上的windows10(请参考this)。另外,如果该包能够可视化结果(如收缩路径)会更好。 #logtistic with penalty terms in sklearn
from sklearn.linear_model
我想在R中构建一个套索回归模型,并且go-to包似乎是glmnet。然而,glmnet似乎不支持单个预测器,如下所示。这是可行的:
x <- matrix(rexp(200, rate=.1), ncol=20)
y <- matrix(rexp(200, rate=.1), ncol=1)
lasso <- glmnet(x, y, family = "gaussian")
但这不是:
x <- matrix(rexp(200, rate=.1), ncol=1)
y <- matrix(rexp(200, rate=.1), ncol=1)
l