Pandas :线性回归将标准缩放器应用于某些列 - 腾讯云开发者社区

machine-learning、neural-network、regression、linear-regression、feature-extraction

神经网络背后的激励思想似乎是他们学习了应用逻辑回归的“正确”特征。线性回归有没有类似的方法？(或者只是一般的回归问题？) 做一件显而易见的事情，移除对所有神经元(即，包括隐藏层)的sigmoid函数的应用，是否有意义/可行？(即，每个神经元执行线性回归，而不是逻辑回归)。或者，只将输出值缩放到0,1的做法(可能更明显)会起作用吗？(直觉上我不这么认为，因为sigmoid函数似乎会导致网络任意偏爱极值)(编辑:虽然我只是搜索了更多，并看到一种技术是基于均值和方差进行缩放，这似乎可以解决这个问题-所以这可能比我想象的更可行)。或者，有没有其他技术可以用来对回归问题进行“特征学习”？

浏览 1提问于2013-12-28得票数 1

1回答

在对数据进行归一化后，使用回归分析如何预测y？

scikit-learn、regression、normalization、linear-regression、statsmodels

我对我的数据进行了归一化，并应用回归分析来预测收益率(Y)。但是我的预测输出也给出了归一化(从0到1)我希望我的预测结果是在我的正确数据数字中，而不是在0到1中。数据： Total_yield(y) Rain(x) 64799.30 720.1 77232.40 382.9 88487.70 1198.2 77338.20 341.4 145602.05 406.4 67680.50 325.8 84536.20 791.8 99854.0

浏览 0提问于2017-02-09得票数 1

回答已采纳

1回答

为什么在对数尺度上得不到线性回归线

c#、linear-regression、syncfusion、math.net

我曾尝试使用Math.NET C# Fit.Line函数，目的是根据一些数据找到线性回归模型。用回归方法得到的结果是正确的，但在对数尺度上看起来不是很好。我在对数尺度上工作，我的问题是，如何才能得到对数尺度上的直线型模型？我的例子如下： double[] xdata = new double[] { 10, 20, 30 }; double[] ydata = new double[] { 15, 20, 25 }; Tuple<double, double> p = Fit.Line(xdata, ydata); double a = p.Item1; double b =

浏览 34提问于2019-09-12得票数 0

1回答

使用StandardScaler时logistic回归结果的差异

python、pandas、logistic-regression

我有一个数据帧：df = pd.read_excel I did classifier.predict(df) 我尝试过的另一件事是做df = sc.transform(df)，然后做 classifier.predict(df)结果是不同的。可能的原因是什么？哪一个是准确的？我正在使用Logistic回归： #Fitting Logistic Regression from sklearn.linear_model import LogisticRegression classifier = LogisticRegression(random_state =0) classifier.f

浏览 2提问于2021-07-12得票数 0

4回答

预处理数据:回归中数据标签的规范化？

machine-learning、regression、normalization

最近，我被告知，回归数据的标签也应该标准化，以获得更好的结果，但我对此表示怀疑。我从未尝试过在回归和分类中标准化标签，这就是为什么我不知道这种状态是否是真的。你能给我一个明确的解释(数学或经验)关于这个问题吗？非常感谢。任何帮助都将不胜感激。

浏览 7提问于2016-04-11得票数 4

回答已采纳

1回答

标准化在线性回归中的作用:机器学习

machine-learning、normalization、rapidminer

作为我任务的一部分，我正在研究几个数据集，并使用线性回归来发现它们的训练错误。我想知道标准化是否对训练错误有什么影响？我的相关性，和RMSE在标准化前后的数据集是一样的。谢谢,

浏览 1提问于2015-11-05得票数 0

回答已采纳

3回答

科学知识学习的标准定标者通常会造成非可逆吗？

scikit-learn、linear-regression、normal-equation

例如，我试图对以下数据进行线性回归数据示例： X = [[1, 20], [3, 40], [5, 60]] (每一行都是一个示例，有三个示例，每个示例都具有2的特性，排列在Numpy数组中) 目标： y = [1, 2, 3] (不管你喜欢什么，它都不会影响我们的结果。把标准定位器给我， X = [[1, 20], [3, 40], [5, 60]] scaler = StandardScaler() scaler.fit(X) Y = scaler.transform(X) Y = [[-1.22474487 -1.22474487] [ 0. 0.

浏览 0提问于2021-06-03得票数 1

1回答

如何复制岭(normalize=True)的行为？

python、machine-learning、scikit-learn、statistics

这段代码： from sklearn.pipeline import make_pipeline from sklearn.preprocessing import StandardScaler from sklearn.linear_model import Ridge X = 'some_data' y = 'some_target' penalty = 1.5e-5 A = Ridge(normalize=True, alpha=penalty).fit(X, y) 触发以下警告： FutureWarning: 'normalize'

浏览 4提问于2022-09-02得票数 3

回答已采纳

2回答

线性回归假设

machine-learning、regression、linear-regression

我读到，我们对线性回归作了以下假设： 1.线性(正确的函数形式) 2.常量误差方差(同方差) 3.独立误差项(无自相关) 4.误差术语的正态性 5.无多重共线性 6.外部性(无遗漏的变量偏差) 因此，这些假设是特定于线性回归或适用于所有类型的回归技术，如支持向量回归，拉索和岭回归，逐步回归等。

浏览 0提问于2020-03-11得票数 3

2回答

如何使用统计模型获得多元线性回归的标准化(Beta)系数

python、pandas、regression、statsmodels、coefficients

当使用.summary()函数与pandas统计模型一起使用时，OLS回归结果包括以下字段。 coef std err t P>|t| [0.025 0.975] 我如何获得标准化的系数(不包括截距)，类似于在SPSS中可以实现的？

浏览 2提问于2018-06-14得票数 9

1回答

在机器学习中标准化数据集会降低准确性吗？

python、machine-learning、scikit-learn、logistic-regression

首先，我对虹膜数据集使用正态logistic回归，它得到了0.977的准确率，第二次对数据集进行预处理时，我得到了0.955的准确率。为甚麽呢？ from sklearn.linear_model import LogisticRegression import sklearn.metrics as metrics logreg= LogisticRegression() xtrain, xtest, ytrain, ytest= train_test_split(x,y, test_size= 0.3, random_state= 1) logreg.fit(xtrain, ytrain)

浏览 1提问于2020-04-20得票数 0

1回答

如何对近距离数据进行标准化？

classification、normalization、logistic-regression、data-transfer、normal-distribution

我使用逻辑回归。我有一些功能。它们的值在0和1之间(函数可以产生的最大值是1，最小值是0)，但在训练和测试数据中，最大值都非常低(例如0.11)，因此所有值都很低且彼此接近。我的问题是，将特征值标准化/转移到正常范围(在0和1之间)的最佳标准方法是什么，以便逻辑回归不会受到不适当值的影响。任何帮助都将不胜感激。

浏览 0提问于2016-02-03得票数 0

1回答

选择归一化数据的算法(分类)

machine-learning、classification、feature-selection

我有一个数据集，它的所有特征都是从0到1(实数)，输出是0或1(整数)。示例： var1 var2 var3 output 0.01 0.1 0.7 1 0.01 0.1 0.7 1 0.1 0.2 0.3 0 0.2 0.4 0.4 0 0.4 0.1 0.9 1 当变量从0到1之间“归一化”时，推荐采用哪种分类算法？在这类数据中，支持向量机或logistic回归“反应”好吗？我注意到，大多数使用支持向量机、神经网络或logistic回归的人在进行

浏览 0提问于2016-04-26得票数 1

1回答

在Logistic回归中，是否需要对特征进行缩放？

machine-learning、regression、classification、logistic-regression、feature-scaling

我有一个训练集，有一个特征(信用平衡)-数字变化在0-20,000之间。响应为0 (Default=No)或1 (Default=Yes)。这是一个用logistic函数生成的模拟训练集。作为参考，它是可用的。下面的框图分别显示了default=yes和default=no类的余额分布情况- 以下是数据的分布情况- 此外，数据集与每个响应类的50%的数据完全平衡。因此，这是一个适用于Logistic回归的经典案例。然而，应用Logistic回归得到的分数为0.5分，因为只有y=1被预测。以下是应用Logistic回归的方法- import numpy as np import

浏览 7提问于2021-06-27得票数 1

1回答

在训练\测试拆分之前，我应该进行标准化和去趋势吗？

python、machine-learning、train-test-split、standardized

我是python新手，正在尝试执行一个随机森林回归任务。我导入了总共有5列(包括date列)的数据集。我的数据是时间相关的，所以我不能使用训练/测试拆分。因此，我改为执行以下操作 feature_cols = [ 'Rainfall' ,'Temperature','Usage amount'] target_v = df['water level'] X = df[feature_cols] y = target_v 然后，我使用sklearn中的时间序列拆分将我的数据拆分成训练和测试 from sklearn.model_

浏览 22提问于2020-05-12得票数 1

回答已采纳

5回答

线性回归:：归一化(Vs)标准化

machine-learning、linear-regression、feature-extraction

我正在使用线性回归来预测数据。但是，当我标准化(Vs)变量时，我得到了完全相反的结果。归一化=x - xmin / xmax -xmin=零分标准化=x- xmean/ xstd a) Also, when to Normalize (Vs) Standardize ? b) How Normalization affects Linear Regression? c) Is it okay if I don't normalize all the attributes/lables in the linear regression? 谢谢，Santosh

浏览 0提问于2015-08-20得票数 36

回答已采纳

1回答

R中岭回归的预测

r、regression

我真的被困在这个问题上了，希望有人能帮我！我有一个有54列的数据集，我想用岭回归在测试集上进行预测。 nn <-nrow(longley) index <- 1:nrow(longley) testindex <- sample(index, trunc(length(index)/3)) testset <- longley[testindex,] trainset <-longley[-testindex,] trainset1 <- trainset[,-7] # Fit the ridge regression model: mod <-

浏览 2提问于2016-06-18得票数 3

回答已采纳

1回答

随机森林比线性回归更糟糕？这是正常的，原因是什么？

machine-learning、deep-learning、linear-regression、random-forest

我正在尝试使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题.我尝试比较深度神经网络、随机森林回归和线性回归。正如我所预期的那样，三隐层深层神经网络的性能优于其他两种方法，均方根误差(RMSE)为0.1。然而，我意外地发现，随机森林的表现甚至比线性回归还要糟糕(RMSE为0.29比0.27)。在我看来，随机林可以发现更复杂的特征之间的依赖关系，以减少错误。我尝试调优随机森林的参数(树数、最大特性、max_depth等)。我也尝试过不同的K-交叉验证，但性能仍然低于线性回归. 我在网上搜索，有一个答案说，如果特征对协变量有平滑的、近乎线性的依赖，线性回归可能会表现

浏览 5提问于2018-01-04得票数 2

回答已采纳

1回答

我应该考虑所有基于梯度下降的算法的特征缩放吗？

gradient-descent

在多元线性回归一节的课程机器学习中，Andrew提供了以下关于梯度下降的提示：使用特性缩放来更快地收敛将特性转换为大约-1 平均归一化吴家富还提供了一些其他建议：绘图成本与迭代确保每一次迭代都能降低成本(尝试更小的alpha) 若要确定收敛速度是否太慢(请尝试更大的alpha) 以确定要收敛的迭代次数。这些技巧适用于所有使用不同机器/深度学习算法的梯度下降问题，还是仅适用于多元线性回归？

浏览 0提问于2018-02-27得票数 2

回答已采纳

1回答

为什么缩放特征会影响回归的预测？

python、machine-learning、regression、svm

我正在使用sklearn的支持向量回归模型处理回归问题，并使用MinMax缩放特征，但通过使用它，我得到了不同的回归结果，这有意义吗？ import pandas as pd import numpy as np from sklearn import svm from sklearn.preprocessing import MinMaxScaler np.random.seed(0) X_training = np.random.rand(100,15)*10 Y_training = np.random.rand(100,1)*10 model = svm.SVR() 不需要扩展：

浏览 2提问于2017-02-09得票数 0

2回答

特性缩放在scikit学习中的应用

scikit-learn、feature-scaling

我从这里学习机器学习，本课程使用“Scikit learning”进行回归-- https://www.udemy.com/machinelearning/ 我可以看到，对于一些训练回归算法，作者使用了特征缩放，而对于一些他没有使用，因为一些'Scikit学习‘回归算法自己处理特征缩放。如果我将特征缩放应用于一个已经在内部进行特征缩放的算法，它会以任何方式影响吗？我能否始终应用特征缩放，无论我使用的算法内部是否有一个特征缩放系统？

浏览 0提问于2018-08-07得票数 3

1回答

当我们添加多项式特征时，损失函数会变成非凸函数吗？

machine-learning、regression、classification、loss-function、non-convex

当我们在多项式回归，logistic回归，svm的情况下使用多项式特征时，损失函数是否变成非凸的？

浏览 3提问于2020-07-16得票数 0

1回答

如何决定使用线性回归模型还是非线性回归模型？

statistics、data-mining、linear-regression、non-linear-regression

人们应该如何决定使用线性回归模型还是非线性回归模型？我的目标是预测Y。对于简单的x和y数据集，我可以很容易地通过绘制散点图来决定应该使用哪种回归模型。在x1，x2，.，xn和y等多变量的情况下.我如何决定必须使用哪一种回归模型？也就是说，如何决定采用简单的线性模型或非线性模型，如二次型、三次型等。是否有任何技术、统计方法或图解来推断和决定必须使用哪一种回归模型？请给我建议。

浏览 4提问于2015-02-06得票数 3

4回答

将数字列转换为0到1之间的列是很好的做法吗？

data-cleaning

对数据科学来说是比较新的。我听说了一些关于将包含整数的列转换为0到1之间的范围的事情，我认为原因是，这样所有的列在它们的范围内都会更相似。我认为，还有一个步骤是移除离群值(非常高的整数)，这样就不会导致所有其他结果都被扭曲为一个低分数。这个准确吗？如果是的话，是否有一个简单的命令可以使其在Pandas数据集中实现？

浏览 0提问于2020-03-05得票数 3

回答已采纳

1回答

恒定项(截距)的高VIF表示什么？

python、constants、rfe

我正在一个汽车数据集上建立一个线性回归模型，使用RFE技术和状态模型库。我的最后一种模型的p值在5%以内，F-统计量很高.预测变量的VIF值远低于5，但对于常量项(截距) VIF为8.18。我使用add_constant方法向模型中添加常量。以下是我的疑虑：常数的高方差表示什么？在计算VIF时应该忽略常量项吗？以下是我的研究结果：我是机器学习的新手，也是第一次在这个网站上发布问题。如果需要更多的信息来回答我的问题，请告诉我。

浏览 8提问于2020-01-11得票数 3

回答已采纳

1回答

对于数据的平方矩阵，我实现了线性回归的$R^2=1$和拉索的$R^2=0$。背后的直觉是什么？

python、scikit-learn、linear-regression、lasso

对于随机数据的平方矩阵，N列和N行。我正在拟合两个模型，线性回归和拉索。在线性回归中，我在训练集上得到了一个完美的分数，而在Lasso中，我得到了0的分数。 import pandas as pd import numpy as np from sklearn import linear_model N = 100 X = pd.DataFrame(np.random.rand(N,N)) y = np.random.randint(20, size=N) lin = linear_model.LinearRegression().fit(X,y) lasso = linear_mod

浏览 0提问于2019-12-28得票数 4

1回答

神经网络输入特征的重新标度(回归)

machine-learning、neural-network、regression

在回归问题的神经网络中，我们发现连续标号与输出激活函数一致，即在使用logistic sigmoid时对它们进行规范化，或者在使用tanh时对它们进行调整规范化。在最后，我们可以恢复原来的范围，但使输出神经元恢复正常。我们是否也应该规范输入特性？又是如何做到的？例如，如果隐藏激活与输出激活不同？例如，如果隐藏激活是TANH，而输出激活是逻辑的，那么应该将输入特征归一化为0、1或-1间隔吗？

浏览 4提问于2013-10-11得票数 3

回答已采纳

1回答

在XGBoost或任何其他基于树的方法中，特性的重要性是否可靠？

feature-selection、decision-trees、xgboost、feature-engineering、boosting

这个问题很长，如果您知道基于树的方法的特性重要性是如何工作的，我建议您跳过图片下面的文本。在基于树的方法中，特征重要性(FI)是通过观察每个变量减少这类树的杂质(对于单树)或平均杂质(对于集成方法)的程度来确定的。我几乎可以肯定，对于单棵树来说，它是不可靠的，因为树的变化很大，主要是在终端区域是如何建造的。XGBoost在经验上优于单一树和“最佳”集成学习算法，因此我们将针对它进行研究。使用XGBoost的优点之一是它的正则化以避免过度拟合，XGBoost还可以学习像线性回归或线性分类器一样好的线性函数(参见Didrik )。我的麻烦是，它的解释已经出现了由于图像低沉： 📷 在上面，我得到了

浏览 0提问于2021-07-15得票数 0

回答已采纳

2回答

对于添加到所有输入特征的大(未知)常量，我如何校正线性回归？

r、machine-learning

假设我有一个输入特征向量，其中包含10个输入特征，每个特征的大小都在1E-7附近。当我使用这些输入特性的log运行线性回归时，我得到的R^2值约为0.98。然而，如果我在运行上面的拟合之前将1E-2添加到我的每个输入特性中，我会得到一个R^2值0.5616。问题是我不会事先知道添加到我的输入特征的常量是1E-2，所以我不能每次都简单地减去这个量。有没有一种通用的方法来纠正添加到我的输入特征集中的一个大的，未知的常量？以下是一个输入文件示例：下面是对应的输出文件：以下是一些用于训练的代码： input_features = read.csv('InputFeatures.c

浏览 0提问于2013-10-31得票数 0

3回答

对于Logistic回归，为什么选择特定的物流功能而不是其他物流功能呢？

logistic-regression

logistic回归的logistic函数为：\frac{e^{B_{0} + B_{1}x}}{1 + e^{B_{0} + B_{1}x}}。为什么要用这个？

浏览 0提问于2022-04-15得票数 5

2回答

Azure ML如何在训练线性或逻辑回归模型期间处理分类列？

azure-machine-learning-studio

Azure ML如何在训练线性回归模型期间处理分类列？线性回归模型采用连续值。然而，即使我没有更改这些分类列中的任何内容，Azure ML也没有错误地训练线性和逻辑回归。所以我想知道Azure ML是如何在幕后处理分类列的。谢谢!

浏览 1提问于2015-10-31得票数 1

3回答

logistic回归中连续变量的尺度分析

machine-learning、scaling、data-science、logistic-regression

我正在执行逻辑回归，我怀疑我的数据集中有分类(0，1)以及连续变量。现在，我需要在0到1之间缩放我的连续变量吗？因为我的连续变量中很少有10k的值，在执行logistic回归时，将这些连续值与分类变量一起保留是否有意义？

浏览 3提问于2018-10-08得票数 0

4回答

分类编码前后的标准化？

machine-learning、scikit-learn、linear-regression、sklearn-pandas、one-hot-encoding

我正在研究一种回归算法，在这种情况下，k-NearestNeighbors可以预测某个产品的价格。所以我有一个训练集，它只有一个分类特征和4个可能的值。我已经使用了一对k分类编码方案来处理它，这意味着现在我的Pandas DataFrame中还有3列，其0/1取决于当前值。 DataFrame的其他特征主要是位置和价格的纬度-经度等距离，所有这些都是数字的。应该标准化(均值和单位方差为零的高斯分布)，并在分类编码前后进行规范化吗？我在想，在编码后进行规范化可能是有益的，这样在测量邻居之间的距离时，每个特征对估计器都一样重要，但我不太确定。

浏览 0提问于2017-11-13得票数 8

回答已采纳

1回答

什么是正确的方法训练回归模型涉及不同的类别？

machine-learning、python、linear-regression、data-science-model

我正在做一个回归问题陈述，它涉及到它的多个类别。我不知道如何进行这项工作，因此请你对此提出指导/建议。假设数据中有'M‘记录和'N’列，而Target是一个回归(数字)输出，将由模型预测。但这里的挑战是，在“N”列中有一个名为“类别”的列，它对目标产生了很大的影响。这意味着，如果两个记录的“M-1”列完全相同，但是“类别”变量是不同的，那么“目标”可能是非常不同的。话虽如此，一个天真的方法是，我训练一个单独的线性回归模型的每一个类别可用。但是列中有大约5000种不同的分类，因此不可能创建单独的模型。所有这些都迫使我创建一个单一的模型，但是我应该如何处理/使用这个“类别”

浏览 0提问于2022-06-13得票数 1

1回答

机器学习模型的缩放

python、machine-learning、regression、classification

我对机器学习模型中的缩放概念有点困惑。在分类中，如果变量具有不同的尺度，我通常对自变量进行缩放，对目标变量进行标签编码，并对预测结果进行逆变换以获得实际标签在回归中，如果我的变量不同，我知道我们必须缩放自变量，我是否也应该缩放我的目标变量？如果我在上述场景中的理解是正确的，我是否应该在回归模型中缩放我的目标变量，有人能帮我吗？提前谢谢。

浏览 35提问于2020-11-08得票数 0

2回答

如何调优MLPRegressor？

python、scikit-learn、neural-network、regression

我目前有一个包含变量和观察值的数据集。我想预测一个变量(需求)，它是一个连续的变量，因此我需要使用回归模型。我尝试使用Linear Regression，并使用R2指标对其进行评估，该指标约为0.85。我想用其他型号来评估它的性能，其中之一就是NNs。我相信神经网络更适合于其他任务，比如分类，不过我还是想试一试。我决定使用scikit-learn主要是因为它提供了两种模型(线性回归和多层感知器)，但与线性回归的指标相比，R2指标太远了，也太差了。因此，我得出结论，我遗漏了许多重要的配置。下面你可以看到我的代码以及数据是如何来的。我的数据有以下列，只有demand (这是我的标签)、popu

浏览 1提问于2016-12-24得票数 3

1回答

对于特定的回归类型，梯度下降总是找到全局最小值吗？

linear-regression、loss-function、gradient-descent

根据我的理解，线性回归被用来预测一个基于输入的输出，它使用一个线性方程来最优地拟合一些输入数据。利用损失函数对输入数据选择最佳拟合线性方程。通过模拟y= mx +b中m和b的值，可以找到具有梯度下降的最优线性方程组。我的问题是，梯度下降总是找到线性回归的全局最小损失吗？这个问题的一个扩展是，对前一个问题的答案不取决于所使用的损失函数吗？此外，当我们在m，b的图上使用梯度下降以及损失函数的值时，如果我们使用线性回归，该图是否总是凸的？

浏览 0提问于2021-10-04得票数 2

回答已采纳

1回答

是否有必要对数据值进行日志转换以获得最小均方误差？

machine-learning、linear-regression

本文采用简单线性回归的方法，以平方英尺为自变量，价格为因变量variable.while，对模型的均方误差进行检验，得出模型的产量为61940787124.62475。但是，在对这两个变量进行日志转换之后，模型将MSE值显示为0.14824951630518876。哪种方法是正确的?由于第一个模型给出了较大的MSE值，这是否意味着第一个模型容易出错？

浏览 0提问于2020-11-19得票数 0

1回答

星火缩放功能和标签的数据

scala、apache-spark、scaling

我在斯派克(scala)有个问题。我使用以下规则创建了一个简单的人工数据集： y_3 = 2*x1 + 3*x2+0 因此，抽样日期是： (y_3，x1，x2 ) 在将数据传递到线性回归之前，我将对数据进行缩放，如下所示： val scaler = new StandardScaler(withMean = true, withStd = true).fit(data.map(x => x.features)) (scaler, data.map(x => LabeledPoint(x.label, scaler.transform(x.featur

浏览 2提问于2015-06-09得票数 0

2回答

要素缩放可在同一比例上转换列中的不同值

python、python-3.x、pandas、feature-scaling

缩放转换具有不同值的不同列，例如标准缩放器，但在构建模型时，先前不同的值被转换为mean=0和std = 1的相同值，因此它应该会影响模型拟合和结果。我拿了一个玩具熊猫数据帧，第一列从1到10，第二列从5到14，并使用Standard Scaler对它们进行了缩放。 import pandas as pd ls1 = np.arange(1,10) ls2 = np.arange(5,14) before_scaling= pd.DataFrame() before_scaling['a'] = ls1 before_scaling['b'] = ls2 &#

浏览 4提问于2019-06-24得票数 1

1回答

XGBoost非线性回归

regression、xgboost、logarithmic

是否可以使用XGBoost回归器进行非线性回归？我知道linear和logistic的目标。linear目标与gblinear助推器一起工作得很好。这让我想知道是否可以将XGBoost用于像对数或多项式回归这样的非线性回归。 ( a)是否有可能像在CNN中那样进行多项式回归，其中XGBoost通过生成n个多项式函数来逼近数据？( b)如果a)通常是不可能的，那么是否可以用它的参数声明一条曲线，并让XGBoost计算出这些参数的值？(举个例子)假设我们猜测这条曲线可以用以下方法近似： 10^{a\log_{k}({x})-b} XGBoost必须计算出a、k和b。x将是一个给定的特性。

浏览 0提问于2021-12-04得票数 5

1回答

有没有有效的方法来建立多项式特征的非线性回归模型？

machine-learning、python

我试图了解犯罪频度对某些地区房价的影响。为此，我从芝加哥犯罪数据和zillow房地产数据开始。我想了解房价与犯罪频度之间的关系，以及某些地区的前五大犯罪。最初，我为这个规范建立了模型，但它对我来说并不是很有意义。有人能告诉我我该怎么做吗？有没有有效的方法来训练某些地区房价与犯罪频度之间潜在关系的回归模型？有什么启发性的想法来继续前进吗？示例数据片段：以下是合并后的数据，其中包括年度房价和某些地区的最高犯罪类型： 📷 这里是可复制的示例数据片段我的尝试因此，我试图用上述可重复的示例数据来拟合回归模型： from sklearn.linear_model import LinearRegr

浏览 0提问于2019-04-24得票数 1

2回答

它是否违反了线性回归的假设来执行时间序列数据？

linear-regression

线性回归的一个假设是，误差必须是独立的，即残差不能相互依赖。假设我们使用线性回归来模拟给定一天的温度。如果是13:00和20度，13:15的温度将是相似的，因此取决于它之前的时间--它不可能在15分钟内突然降到-20。同样，20:00的温度与19:50的温度比13:00的温度关系更密切。线性回归假设“误差的独立性”是否意味着你不能对时间序列数据执行它？

浏览 0提问于2020-06-08得票数 2

1回答

带AR误差的线性回归模型

python、pandas、statsmodels

有没有python包(statsmodel/scipy/pandas/etc...)具有在python中估计具有自回归误差的线性回归模型的系数的功能，例如下面的SAS实现？

浏览 2提问于2016-04-12得票数 2

1回答

如何使用“`matplotlib`”可视化5维特征集和回归结果？

numpy、matplotlib、scikit-learn、data-visualization

我使用sklearn.svm支持向量回归来解决连续数据集上的回归问题，其中特征集具有5维和1维标签集，下面是数据集的外观： >>> type(feature_set) 55: <type 'numpy.ndarray'> >>> type(label_set) 56: <type 'numpy.ndarray'> >>> feature_set.shape 57: (31875, 5) >>> label_set.shape 58: (31875,) 现在我只想可视化

浏览 4提问于2016-06-17得票数 1

1回答

交叉验证-管道中未应用的定标器方法

scikit-learn、pipeline、cross-validation

在使用Scikit Learn进行一些交叉验证时，我遇到了一个问题。我已经构建了一个包含2个元素的管道:一个缩放器和一个回归模型。我的问题是，我发现我在管道中配置的定标器方法在计算过程中没有被应用(即，考虑在内)。请检查一下我的笔记本，看看哪里出了问题。这里有个链接：https://colab.research.google.com/drive/1KHqHsDHNkGLj4e0u-EWY9oj00NXeO5u3?usp=sharing 下面是我使用的数据集的链接：https://drive.google.com/file/d/1nyx0BitzxBLQjsAAAxfHt-9SzKqk9d

浏览 16提问于2021-09-07得票数 0

1回答

避免虚拟变量陷阱和神经网络

neural-network、regression、one-hot-encoding

我知道在训练机器学习算法之前，分类数据应该是一个热编码。对于多元线性回归，我还需要排除其中一个编码变量，以避免所谓的虚拟变量陷阱。例:如果我有“大小”：“小”、“中”、“大”的分类特征，那么在一个热编码中，我会有如下内容： small medium large other-feature 0 1 0 2999 因此，为了避免虚拟变量陷阱，我需要删除3列中的任何一列，例如，列“小”。对于神经网络的训练，我也应该这样做吗？还是这纯粹是为了多元回归？谢谢。

浏览 9提问于2017-11-04得票数 11

回答已采纳

2回答

线性回归预测值很大

python、scikit-learn、regression

我试图在python中运行一个线性回归来确定给定许多特性的房价。其中有些是数字的，有些是非数字的.我正在尝试对非数字列执行一次热编码，并将新的数字列附加到旧的dataframe中，并删除非数字列。这是对培训数据和测试数据进行的。然后，我选择了这两列特性的交集(因为我有一些只位于测试数据中的编码)。然后，它进入线性回归。守则如下： non_numeric = list(set(list(train)) - set(list(train._get_numeric_data()))) train = pandas.concat([train, pandas.get_dummies(train[no

浏览 6提问于2017-06-23得票数 1

回答已采纳

1回答

Pandas Rank归一化-1和1之间的返回

python、python-3.x、pandas

有关pandas排名的官方文档仅提供了在pct设置为true时将列排名为0到1之间的百分比的选项。 DataFrame.rank(self, axis=0, method: str = 'average', numeric_only: Union[bool, NoneType] = None, na_option: str = 'keep', ascending: bool = True, pct: bool = False) 然而，我想知道是否有一种方法可以将排名范围更改为-1到1之间。

浏览 67提问于2020-04-02得票数 0

回答已采纳

1回答