在python中对波士顿犯罪数据集进行套索回归_在python中对大型数据集进行多处理(查找重复项)_在Python中对整个数据集使用简单 - 腾讯云开发者社区

machine-learning、scikit-learn

在scikit学习中，我对波士顿房价进行了回归，得到了以下的学习曲线。但是分数(y轴)在回归中的意义是什么？

浏览 6提问于2017-10-21得票数 5

回答已采纳

2回答

基于reg评分的回归模型中变量组合的选择

python、machine-learning、regression

你好，老忠实社区，这可能是一个虽然，因为我几乎找不到任何材料在这个。 The Problem I有一组澳大利亚新南威尔士州议会实施的犯罪数据，并按议会将其与平均房价合并。我现在正在寻找一种线性回归，试图通过邻里的犯罪来预测房价。问题是，我有49种犯罪，而且只想在我的模型中使用最好的犯罪(统计数字)。我已经对所有变量和一些变量(使用相关性)进行了回归评分，并获得了.23 - .38的结果，但我希望尽可能完善它--当然，如果有方法的话。我已经考虑过每一个可能的组合，但根据谷歌的数据，这最终可能会增加几百万美元。那么，我的朋友们--我怎样才能用python这个dataframe来获得最好的列

浏览 5提问于2018-01-03得票数 5

1回答

我需要帮助来应用引导程序

r、statistics-bootstrap

我在试着理解我应该在这里做什么。我已经应用了套索和岭回归，找到了最优的λ，并重新构建了模型。但我不明白在那之后我该做什么。问题： “。对于糖尿病数据集(上传到Moodle)，我们希望使用10个特征(X变量)来预测prog (Y)，这是基线后一年疾病进展的定量评估。变量prog是数据中的最后一列。在拟合岭回归和套索之前，不要忘记标准化所有的X变量，使它们在相同的尺度上。使用岭回归和套索预测程序。在两个回归中，使用交叉验证选择最优的λ。最优λ将对应于最小CV误差。对于最优的lambda，改装脊线和套索模型。使用1000个bootstrap重复运行bootstrap，以获得回归系数估计的标准误差(

浏览 2提问于2021-11-26得票数 0

1回答

正交匹配追踪回归-我用错了吗？

python、statistics、scikit-learn、regression、regularized

我尝试这种方法作为正则回归，作为套索和弹性网的替代。我有40k个数据点和40个特征。套索选择5个特征，正交匹配追求只选择1个。是什么导致了这一切？我是不是用错了omp？也许它并不是用来作为一种回归。请告诉我，如果你还能做什么，我可能做错了。

浏览 0提问于2016-03-29得票数 4

回答已采纳

2回答

如何用三个自变量拟合线性回归模型，用sklearn计算均方误差？

python、scikit-learn、jupyter-notebook、linear-regression、mse

我试图用三个自变量拟合一个线性回归模型，并使用sklearn计算均方误差，但我似乎不能正确地理解它。我的数据是波士顿住宅，三个自变量如下: 1. CRIM (按城镇分列的人均犯罪率) 2. RM (每套住宅的平均房间数) 3. PTRATIO (按城镇分列的学生-教师比率) Fit模型： import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt import sklearn lm = LinearRegression() lm.fit(X[['CRIM

浏览 5提问于2017-02-23得票数 1

回答已采纳

1回答

用于多个输入数据集和分类结果变量的LASSO方法

imputation、lasso-regression

我一直在无休止地寻找答案，真的很感谢任何帮助。我目前有10个估算数据集，一个分类结果变量(序数，三个级别)，一个分类暴露变量，以及协变量的混合(数字，分类，二进制)。我想应用套索方法来选择哪些变量应该包括在最终的多项式logistic回归模型中，但我还没有找到任何关于这个主题的论文，或者提供了如何执行这一操作的R代码。我发现有许多论文表明，如果你有一个二元或连续的结果，而不是一个绝对的结果，那么可以进行哪种程序。有谁有资源吗？非常感谢您抽出时间来

浏览 8提问于2021-07-22得票数 0

1回答

套索回归预测函数

r、regression

我正在尝试实现套索回归来解决我的销售预测问题。我使用glmnet包和cv.glmnet函数来训练模型。 library(glmnet) set.seed(123) model = cv.glmnet(as.matrix(x = train[, -which(names(train) %in% "Sales")]), y = train$Sales, alpha = 1, lambda = 10^seq(4,-1,-0.1)) best_lambda = model$la

浏览 7提问于2019-03-18得票数 0

1回答

glmnet包是否支持多变量分组套索回归？

r、regression、glmnet、lasso-regression

我正在尝试使用glmnet库对具有300个自变量和11个响应变量的数据集执行多变量套索回归。我想对一些输入变量进行分组，然后应用多变量分组套索回归，以便套索模型根据它们的重要性选择或丢弃所有分组变量。我如何才能做到这一点？我确实研究了grplasso包，但它不支持多元回归。

浏览 2提问于2020-07-03得票数 1

1回答

线性回归的自定义成本函数注入

python、python-2.7、machine-learning、scipy、scikit-learn

我想运行一个拉索或脊回归，但其中L1或L2约束的系数是在一些系数，而不是所有。另一种说法是:我想在套索或脊算法中使用我自己的自定义成本函数。我想避免重写整个算法。在python中有允许这样做的模块吗？到目前为止，我对scipy和sckit-learn进行了调查，但没有发现。

浏览 4提问于2016-03-10得票数 0

1回答

从特征集中选择集成特征

python、machine-learning、scikit-learn、feature-selection

我有一个关于集合特征选择的问题。我的数据集由1,000个样本和大约30000个特征组成，它们被分类为标签A或标签B。我想做的是挑选一些可以有效地对标签进行分类的特征。我使用了三种方法，单变量方法(皮尔逊系数)，套索回归和SVM-RFE(递归特征消除)，所以我从它们中得到了三个特征集。我使用python scikit-learn进行特性选择。然后我在考虑集成特征选择方法，因为特征的大小太大了。在这种情况下，如何制作具有3个特征集的集成子集？我能想到的是集合的并集，并再次使用套索回归或SVM-RFE，或者只是集合的交集。有人能给出一个主意吗？

浏览 2提问于2015-12-11得票数 3

1回答

在python中对波士顿犯罪数据集进行套索回归

python、lasso-regression

Lasso regression solution in R 上面的链接包含在R中解决套索回归的代码。我正在尝试在python中解决它。有没有人能帮我解决这个问题？ Output 它的输出如上图所示。

浏览 35提问于2021-11-05得票数 0

1回答

用Python创建用于回归的时间序列数据

python、dataframe、time-series、regression

我有一个犯罪数据集，每一行都是记录在案的犯罪，相关的列是日期、犯罪类型、地区。下面是一个例子，每周只有2个区和2个犯罪类型：我想把它扩展到一个可以用来运行回归的dataframe。在这个简单的例子中，我需要列是日期，地区，谋杀，盗窃。每个地区在范围内的每个日期将有一个不同的行，犯罪类型类别将是该日在该地区所犯罪行的数目以下是最后的数据文件：我需要一个时间序列，其中#Rows =#区*#日期，每种犯罪类型都有一列有什么好的方法可以避免在数据文件中循环吗？我可以像这样创建日期列表： datelist = pd.date_range(start='01-01-

浏览 2提问于2022-10-22得票数 1

1回答

是否有一个R函数可以对多个估算的数据集执行套索回归，并将结果汇集在一起？

r、regression、imputation、r-mice、lasso-regression

我有一个包含60个变量的283个观察值的数据集。我的结果变量是二分法(诊断)，可以是两种疾病中的任何一种。我正在比较两种经常表现出许多重叠的疾病，我试图找到有助于区分这两种疾病的特征。我知道套索逻辑回归是这个问题的最好解决方案，但是它不能在不完整的数据集上运行。所以我用R中的MICE包计算了我丢失的数据，发现大约40次估计对于我所拥有的丢失数据量来说是很好的。现在，我想对所有40个推定的数据集执行套索逻辑回归，但不知何故，我被困在需要汇集所有这40个数据集的结果的部分。 MICE的with()函数在.glmnet上不起作用 # Impute database with missing v

浏览 15提问于2019-01-21得票数 1

2回答

拉索回归怀疑

r、regression、statistics、linear-regression

我试图解决一个基于线性回归的问题(预测销售额，这是一个连续变量)。对于这个问题，我使用了线性回归，但是有一个建议的解决方案是用Lasso回归。然而，用户已经使用了列车功能。我不明白为什么要使用火车功能。是拉索的语法吗？岭回归也采用了类似的函数。 my_control = trainControl(method="cv", number=5) Grid = expand.grid(alpha = 0, lambda = seq(0.001,0.1,by = 0.0002)) lasso_linear_reg_mod3 = train(x = Train[, -c(1,2)],

浏览 0提问于2018-06-24得票数 1

1回答

如何将套索和岭回归拟合(Glmnet)叠加到数据上？

r、graph、regression、glmnet

我有数据(如下)，并进行了线性、脊线和套索回归。对于套索和岭回归，我已经使用交叉验证找到了最优的λ。现在，我想将拟合的模型叠加到原始数据的y与x图上。我在图上有一个线性模型，我只是不知道如何让另外两个模型出现。我已经在ggplot中尝试过了，但是在base R中得到一个答案也会很有帮助！即使你能给我指出正确的方向，那也太好了。我让模型都工作得很好。我在图上有一条线性回归线。但是，当我尝试以相同的方式绘制其他两个拟合时，它不会起作用。用于创建数据的代码 set.seed(1) x <- rnorm(100) y <- 1 + .2*x+3*x^2+.6*x^3 + rnorm(

浏览 21提问于2019-05-01得票数 0

回答已采纳

1回答

用于在课堂实验中学习神经网络回归的数据集

neural-network、dataset

你能建议我在课堂实验中使用大约1000到10000的中等大小的数据集进行神经网络回归吗？似乎分类任务的数据集比回归任务的数据集多得多。我知道两个很好的数据集：波士顿住宅数据集自动MPG数据集但它们看起来确实很小。另一方面，我知道其他数据集，如齐洛价格，但它们似乎非常大，以探索不同类型的神经网络回归在课堂实验。

浏览 0提问于2020-07-20得票数 0

1回答

基本问题:如何为绘图中的线条添加颜色

我开始在R中“编码”，并在波士顿数据集上工作。我现在的任务是在散点图中显示房价medv和犯罪率crim之间的关系，并标记x轴(cr)和y轴(mhv)，只需添加一个主标题( hv和cr的南向)。到目前为止，这一切都很好。现在我只有一个看似很小的问题。我还必须添加一条“线性拟合到该图”--线性回归线，我认为这也很好。但最基本的是，我如何为这条线添加颜色?例如，蓝色/红色/绿色？ plot(Boston$crim, Boston$medv, main = "SÜ of hv and cr", xlab = "cr", ylab = "mhv")

浏览 4提问于2021-09-03得票数 1

1回答

多项式回归度递增误差

python、machine-learning、regression

我正在试着预测波士顿的房价。当我选择多项式回归度为1或2时，R2得分是可以的。但第三度会降低R2得分。 # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd # Importing the dataset from sklearn.datasets import load_boston boston_dataset = load_boston() dataset = pd.DataFrame(boston_dataset.data, columns =

浏览 11提问于2019-07-28得票数 0

回答已采纳

1回答

在机器学习的堆叠中，你应该按什么顺序训练模型？

machine-learning

我目前正在学习在一个机器学习问题中做堆叠。我将获取第一个模型的输出，并将这些输出用作第二个模型的特征。我的问题是:顺序重要吗？我使用的是套索回归模型和增强树。在我的问题中，回归模型的性能优于boosted树。因此，我认为我应该第二次使用回归树，第一次使用增强树。在做这个决定时，我需要考虑哪些因素？

浏览 2提问于2017-10-17得票数 0

1回答

套索回归R中的标准化系数

r、linear-regression

有没有办法获得R中套索回归的标准化系数列表？在交叉验证之后，我已经确定了最优的λ，然后可以使用预测函数获得适合于未缩放数据的系数。我需要完全相同的模型--即相同的系数必须看起来不为零--但在对缩放数据运行套索回归时，用于未缩放数据的λ意义不大。

浏览 1提问于2013-10-02得票数 0

1回答

对一个普通的线性回归模型执行引导，使用我的数据集的B=100引导树，并获得RMSE。

machine-learning、r、rmse、bootstraping

因此，我通过R学习机器学习，并且使用来自图书馆群的波士顿数据集。我在练习私酒。我已经进行了分析，以确定如何使用数据集的B=100重采样，从示例中平均提取许多不同的数据点来构成引导重采样。接下来，我想做两件事--再次使用数据集的B=100结果执行普通线性回归模型的引导，并使用OOB样本来预测RMSE。同时，利用一个带有100个Bootstrap样本的岭回归模型的引导来预测RMSE，然后比较我的答案。我在修改代码时遇到了困难，因为我已经完成了一些工作。有人知道吗？

浏览 0提问于2020-04-22得票数 0

1回答

我可以使用Python中的套索方法拟合VAR模型吗？

python、statsmodels、lasso-regression

我必须在VectorAutoregressive模型中拟合40个时间序列，大量的变量建议使用选择方法。我很喜欢使用套索方法，但我使用的是statsmodel进行拟合，而使用该库实现套索的唯一方法是线性回归模型。有人能帮上忙吗？

浏览 20提问于2020-05-14得票数 0

回答已采纳

2回答

套索和稀疏解

sparse-matrix、lasso-regression

在一篇文章中，我发现了以下几点：套索回归方法提供了一种稀疏的解决方案，因此可以提高模型的可解释性。有人能帮我理解一下这是什么意思吗？据我所知，方程组解的稀疏分解是具有最小伪l范数的维数l的向量，使得该系统仍然是满足的。将一些回归系数设置为零的稀疏解决方案如何在解释中有所帮助？

浏览 28提问于2020-06-22得票数 0

回答已采纳

1回答

选择Lasso系数非零的数据帧的列

python、pandas、numpy、scikit-learn、lasso-regression

我用scikit和pandas的数据集做了套索回归。我想试着使OLS适合套索选择的特征。我有像这样的东西 lassomodel = LassoCV(alphas = [1, 0.1, 0.001, 0.0005]).fit(X_train, y_train) 和 lassomodel.coef_ 我想要得到数据帧或numpy数组，其中包含套索系数不等于零的所有特征。

浏览 10提问于2020-06-11得票数 1

回答已采纳

1回答

特定训练/测试拆分的线性回归系数“爆炸”

python、scikit-learn、linear-regression

我正在使用"“数据集，比较线性回归、岭和套索的系数。我首先进行训练/测试拆分，然后标准化数据，然后训练三个模型并比较系数。对于大多数训练/测试拆分随机种子，三个模型的系数在相同的尺度上，我可以比较它们。但是对于一些随机的种子，一些线性回归的系数“爆炸”，从大约10^4-10^5的值跳到大约10^18。这只发生在线性回归模型中的几个系数上，脊线和套索的系数不受影响。我不确定为什么会发生这种情况，有什么建议或建议吗？

浏览 0提问于2020-09-23得票数 1

1回答

当LASSO已经是一个包含的基准时，添加弹性网作为一个额外的基准会增加价值吗？

machine-learning、feature-selection、feature-engineering、research

我目前正在与一位合作者一起从事一个研究项目，其中他提出了一种新的学习算法，用于最优变量的选择，并探索其计算、统计和渐近特性；同时，我提出并运行了几种基准测试方法，用于比较其性能和我提出的基准都运行在我的合作者通过Monte模拟生成的260 k合成数据集上。到目前为止，我已经确定了3个基准: BM1 - LASSSO回归、BM2 -向后逐步回归和BM3 -正向逐步回归。我一直在考虑在Elastic上添加另一个第4基准，但有些东西告诉我，它不值得额外的编码和调试时间。如果包括套索的话，还会增加什么重要的价值吗？

浏览 0提问于2022-12-30得票数 2

回答已采纳

1回答

具有非负连续因变量(因变量)的LASSO型回归

r、machine-learning、glmnet、lasso-regression

我主要是使用"glmnet“软件包(在R中)进行正则线性回归。然而，我想知道它是否能够执行非负(整数)连续(因变量)结果变量的套索型回归。我可以使用=泊松，但是结果变量是，而不是，特别是“计数”变量。它只是一个下限为0的连续变量。我知道"lower.limits“函数，但我想它是用于协变量(自变量)的。(如果我对这个功能的理解不正确，请纠正我。) 我期待着收到你们的来信！谢谢:-)

浏览 3提问于2020-06-04得票数 0

1回答

为什么日志转换目标会对MSE值产生巨大影响？

feature-scaling、mse、rmse、transformation

我正在使用波士顿房屋数据集进行线性回归，应用\log(y)的效果对MSE有很大的影响。如果没有这样做，就会给出MSE=34.94，而如果转换了y，则会给出0.05。

浏览 0提问于2022-05-02得票数 0

回答已采纳

1回答

如何在pandas数据框架中创建新列作为现有列的函数？

python、pandas、numpy

首先，我有一个非线性模型，我想用它来执行套索回归： ? 我的方法是创建一个新的数据框，其中包含变量向量的所有可能组合，它应该=J+ J^2 在我的数据中有J=19，也就是19个预测值，所以我希望总共产生171列。使用它，我可以使用Sklearn执行套索回归。到目前为止，我的方法是： for j in df2.iteritems(): for k in df2.iteritems(): df3[j*k] = df2[j]*df2[k] 这个解决方案不起作用，但它是我思考过程的一个例子。我也不太确定如何在每次循环中重命名列，因此每个列都有一个唯一的名称。

浏览 21提问于2021-04-24得票数 0

回答已采纳

1回答

改进python降雨数据的线性回归、L1和L2正则化

python、linear-regression、lasso-regression

我正在使用线性回归模型来预测降雨量。 dfx = df1[['JAN', 'FEB', 'MAR', 'APR', 'MAY', 'JUN', 'JUL', 'AUG', 'SEP', 'OCT', 'NOV', 'DEC']] dfy=df1['ANNUAL'] X_train, X_test, y_train, y_test = tra

浏览 10提问于2021-09-05得票数 0

1回答

有序logistic回归(或Beta回归)与套索正则化在R？

r、logistic-regression、cross-validation、lasso-regression、betareg

我想知道是否有人会知道一个R包，可以让我适应一个普通的Logistic回归与套索正则化，或者，另一个，贝塔回归仍然与套索？如果你也知道一个很好的教程来帮助我在R中编写代码(通过适当的交叉验证)，那就更好了！一些上下文：我的响应变量是0到10之间的满意度评分(实际上，值在2到10之间)，所以我可以用Beta回归来建模它，或者我可以将它的值转换成排序类别。我的兴趣是找出解释这个分数的重要变量，但与我的样本大小(n = 105)相比，我有太多的潜在解释变量(p = 12)，所以我需要用一种惩罚的回归方法来选择模型，因此我对套索感兴趣。

浏览 13提问于2022-06-16得票数 2

回答已采纳

1回答

有没有有效的方法来建立多项式特征的非线性回归模型？

machine-learning、python

我试图了解犯罪频度对某些地区房价的影响。为此，我从芝加哥犯罪数据和zillow房地产数据开始。我想了解房价与犯罪频度之间的关系，以及某些地区的前五大犯罪。最初，我为这个规范建立了模型，但它对我来说并不是很有意义。有人能告诉我我该怎么做吗？有没有有效的方法来训练某些地区房价与犯罪频度之间潜在关系的回归模型？有什么启发性的想法来继续前进吗？示例数据片段：以下是合并后的数据，其中包括年度房价和某些地区的最高犯罪类型： 📷 这里是可复制的示例数据片段我的尝试因此，我试图用上述可重复的示例数据来拟合回归模型： from sklearn.linear_model import LinearRegr

浏览 0提问于2019-04-24得票数 1

1回答

我如何知道这里使用的是哪种类型的GLM？如果我不知道家庭的类型。(考虑因变量性质是未知的)

r、regression

波士顿数据的回归分析输出。这里使用的是波士顿数据集，所以我可以交叉检查response /target变量，但我想知道是否有其他方法可以仅通过查看以下可用输出来了解？ ?

浏览 14提问于2020-04-29得票数 1

回答已采纳

3回答

Seaborn:注释线性回归方程

python、python-3.x、matplotlib、linear-regression、seaborn

我试着为波士顿数据集拟合OLS。我的图表如下所示。如何注释直线上方或图中某处的线性回归方程？如何在Python中打印公式？我对这个领域是相当陌生的。到目前为止，探索python。如果有人能帮助我，那将加快我的学习曲线。非常感谢！我也试过了。我的问题是-如何在等式格式的图形中注释上面的内容？

浏览 2提问于2017-08-27得票数 18

回答已采纳

3回答

聚类具有{纬度、经度、犯罪类型}元组的犯罪数据

data-mining、clustering

我有一个数据集，它有数千行{纬度、经度、犯罪类型}元组。样本数据： 41.757366519 -87.642992854 THEFT 41.910469677 -87.585822373 ROBBERY 41.751270452 -87.690708662 BURGLARY 41.757366519 -87.642992854 THEFT 41.757366519 -87.642992854 THEFT .. .. .. .. .. .. 我试图根据犯罪

浏览 0提问于2016-03-07得票数 2

1回答

python自动统计线性回归

python、regression

是否有一些python包可以帮助进行统计线性回归？例如，我希望这类程序能够自动执行不同类型的统计测试(t检验、F检验等)。然后自动删除冗余变量等，校正异方差等。还是套索是最好的？

浏览 2提问于2018-06-25得票数 0

回答已采纳

1回答

跨不同数据集扩展的最佳方法

python、scikit-learn、neural-network、preprocessor、feature-scaling

在对数据进行预处理时，我遇到了一种特殊的情况。假设我有一个dataset A。我将数据集拆分为A_train和A_test。我使用任何给定的定标器(sci学习)来安装A_train，并使用该scaler转换A_test。利用A_train对神经网络进行训练，并在A_test上进行验证，效果良好。没有越位和性能良好。假设我的dataset B具有与A相同的特性，但功能的值范围不同。A和B的一个简单例子可以分别是波士顿和巴黎住房数据集(这只是一个类推，可以说诸如成本、犯罪率等特征的变化很大)。为了在B上测试上述训练模型的性能，我们根据B的缩放属性对A_train进行了转换，并进行了验证。这通常

浏览 0提问于2019-05-03得票数 0

1回答

拉索回归在科学工具包-学习没有选择运行在多线程。

machine-learning、scikit-learn、python-multithreading、lasso-regression

我有一个巨大的数据(1250乘1m)作为多个套索的输入。如果我通过sklearn来拟合一个正常的回归，那么就有一个选项可以使用多线程，在这种情况下，整个过程在短时间内运行，得到一个可接受的结果。 sklearn.linear_model.LinearRegression(*, fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None, positive=False) 在上面的一行中，如果我设置了n_jobs=-1，它将使用所有可用的核，这样计算成本就会大大降低。但是，在滑雪板中没有拉索回归的选择：

浏览 12提问于2022-08-23得票数 1

1回答

有可能解释为什么拉索模型消除了某些系数吗？

linear-regression、correlation、regularization、lasso、linear-models

有可能理解为什么Lasso模型消除了特定系数吗？在建模过程中，数据中的许多高度相关的特征正被拉索回归所消除。是否有可能从模型中确切地删除这些特性？(是否存在其他特征/多重共线性等)？我想解释一下套索模型的行为。你的帮助是非常感谢的。

浏览 0提问于2022-02-16得票数 1

3回答

一种比较一种新的变量选择算法性能的第4种基准方法

machine-learning、regression、feature-selection、research、lasso

我正在与一位著名的计量经济学研究生合作进行一个研究项目(尽管只在MS程序中，而不是在PhD程序中-请注意)，探索最佳子集选择(也称为所有子集回归)算法的新变化的特性并比较其性能，他将其称为EER (估计穷尽回归)算法。我在这个合作研究项目中的主要角色是扩大基准标准/直接前向变量选择程序的数量，以比较EER的性能(根据它能够根据标准性能指标(如TPR、TNR、PPV等)选择多少真正的结构回归器)，通过Monte模拟随机生成一组260 k的合成数据集。他最初的工作比较了EER的性能与反向消除逐步回归和另一种变量选择方法，不值得在这里解释。到目前为止，我已经添加了LASSO回归和前向选择逐步回归

浏览 0提问于2022-12-24得票数 1

回答已采纳

1回答

分类器与精度

machine-learning、python、svm、naive-bayes-classifier、text-classification

我想问你如何使用分类器和确定模型的准确性。我有我的数据集，我已经清理了文本(删除断点，标点符号，删除空行，.)。然后我把它分成火车和测试。由于我想确定一个电子邮件是否是垃圾邮件，我已经使用了常见的分类器，即朴素贝叶斯，支持向量机和逻辑回归。在这里，我只是包括我的火车和测试数据集:没有其他！我正在使用Python运行此分析。我的问题是:应该足够了还是应该实现新的算法？如果你能给我一个例子，说明一个已经存在的算法是如何被改进的，那也是很好的。我阅读了大量关于文本分类准确性的文献，在所有的论文中，作者使用支持向量机、Na ve Bayes、logistic回归等方法对垃圾邮件进行分类。但我不知道

浏览 0提问于2020-08-14得票数 0

回答已采纳

1回答

UnicodeDecodeError：'utf-8‘编解码器无法解码位置24中的字节0xa0 :无效的起始字节

python、python-3.x、kaggle

我正在尝试加载Kaggle notebook上的“波士顿犯罪”数据库()，顺便说一句，这个数据的最新版本可以在这里找到：()，当我想使用Pandas读取数据时，我得到了这个错误： UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 24: invalid start byte 下面是我尝试将数据加载到内核中的方法： my_filepath = '../input/crimes-in-boston/crime.csv' my_data = pd.read_csv(

浏览 0提问于2019-08-26得票数 0

2回答

组套索正则化线性回归的R实现

r、regression、linear-regression

有没有人知道在R(甚至Matlab)中实现组套索正则化线性回归的好方法？

浏览 3提问于2012-06-11得票数 2

1回答

Lasso和岭估计

regression、lasso-regression

我有一个包含大量数据的txt文件。如何使用套索或脊估计来拟合回归方程？我已经使用了: gridge 然而，我不知道这一段在做什么。我在一个网站上找到了它，我不知道应该把什么价值观放在那里。我不知道如何解释输出:修改后的HKB估计量是5.465433，修正的how估计值是7.6435664，GCV的最小值为3.24。如何利用这些信息来拟合回归方程呢？

浏览 5提问于2012-12-10得票数 2

1回答

如何使用基于l1和l2正则化的逻辑回归？

python

最近我把我的代码从R复制到Python，我确实需要一些关于代码的帮助。据我所知，sklearn中的逻辑回归仅包括l1或l2正则化项，分别代表套索回归和岭回归。然而，同时实现l1和l2正则化项，即ElasticNet可能要好得多。在R的情况下，有一个值得注意的包glmnet，它可以完美地部署上述思想，而python中的glmnet包似乎只支持Linux系统，而不是我电脑上的windows10(请参考this)。另外，如果该包能够可视化结果(如收缩路径)会更好。 #logtistic with penalty terms in sklearn from sklearn.linear_model

浏览 23提问于2019-04-21得票数 0

1回答

如何找出哪些更改使构建脱离了多次提交？

git、continuous-integration

考虑到我们不能在每个提交的基础上构建，我们最终会从多个提交构建。通常，这大约是30次提交到一个构建。最后，我们破坏了建筑。如何识别和修复引入回归的代码更改？是否有任何追踪不良犯罪的做法？

浏览 0提问于2017-10-02得票数 2

回答已采纳

2回答

Flot "points“图表功能

flot

有没有人能告诉我下面哪一种是可能的？ -1-我想在Flot中创建散点图，并相信通过"points“可以做到这一点。图表中的每个点都需要有自己的标签始终出现在图表中--也就是说，不仅仅是在悬停/鼠标悬停期间。我想这是很容易做到的吧？有没有办法让每个数据点都有“两个”标签？换句话说，假设我想要绘制美国的城市和犯罪率的年复一年变化。我能有像“波士顿+5.3%”和“圣地亚哥-7.1%”这样的点数标签吗？(请记住，第二个值(犯罪率的变化)不是这两个轴的一部分。) -3-如果上述情况可行，标签的第二部分(犯罪率的变化)是否可以根据该值进行颜色编码？例如，正犯罪率显示为红色，负犯罪率显示为绿色？

浏览 7提问于2013-04-13得票数 0

1回答

如何使用单个预测符列执行套索回归？

r、glmnet

我想在R中构建一个套索回归模型，并且go-to包似乎是glmnet。然而，glmnet似乎不支持单个预测器，如下所示。这是可行的： x <- matrix(rexp(200, rate=.1), ncol=20) y <- matrix(rexp(200, rate=.1), ncol=1) lasso <- glmnet(x, y, family = "gaussian") 但这不是： x <- matrix(rexp(200, rate=.1), ncol=1) y <- matrix(rexp(200, rate=.1), ncol=1) l

浏览 0提问于2017-10-12得票数 0

2回答

在Tableau中查找带过滤器的总数百分比

tableau-api

下面的操作在SQL中很容易完成，但我在tableau (仅从原始数据中)做同样的事情时遇到了一些小问题。原始数据采用以下格式。犯罪类型犯罪 2015-06-01 -暴力5 2015-06-01 -暴力5 2015-06-02轻罪-3 2015-06-03与泊车有关的2 我想要做的是得到日期，显示所有犯罪的数量和“暴力”或“轻罪”犯罪的数量，然后是“暴力”或“轻罪”犯罪的百分比。这在SQL中非常容易实现，但我希望能够从原始数据的图表中实现这一点。

浏览 5提问于2015-05-04得票数 2

回答已采纳