不同的线性回归初始权值收敛到不同的最小化代价值_如何在geom_smooth() (来自ggplot2包)中为多个非线性回归分配不同的初始值？_如果我们使用两次相同的数据(初始参数的两次随机化)，我们的算法是否有可能收敛到不同的局部最小值？ - 腾讯云开发者社区

、、

搜索了大量的研究论文，博客和视频，但找不到一个可以接受的答案，选择权重和偏差的神经网络。很少有人提到随机使用权重，但如果是这样的话，那不是不确定(模糊)吗？

浏览 0提问于2017-11-13得票数 -3

回答已采纳

2回答

线性回归假设

、、

我读到，我们对线性回归作了以下假设： 1.线性(正确的函数形式) 2.常量误差方差(同方差) 3.独立误差项(无自相关) 4.误差术语的正态性 5.无多重共线性 6.外部性(无遗漏的变量偏差) 因此，这些假设是特定于线性回归或适用于所有类型的回归技术，如支持向量回归，拉索和岭回归，逐步回归等。

浏览 0提问于2020-03-11得票数 3

2回答

logistic回归如何从分类因变量建立Sigmoid曲线？

、、

我正在探索Scikit-learn logistic回归算法。据我所知，作为训练的一部分，该算法建立了一条回归曲线，其中y变量的范围从0到1(S型S曲线)。在这里，y变量是一个连续变量(尽管实际上它是一个离散变量)。。当训练数据集反映现实并包括y变量作为离散变量时，算法如何学习S曲线？在训练中没有概率估计，所以我想知道算法是如何学习S曲线的。

浏览 2提问于2021-01-03得票数 1

1回答

我将用Keras编写的逻辑回归器的结果与默认的Sklearn进行比较。我的输入是一维的。我的输出有两个类，我感兴趣的是输出属于类1的概率。我希望结果几乎是一样的，但它们甚至不是很接近。这是我如何生成随机数据的方法。注意，X_train，X_test仍然是向量，我只是使用大写字母，因为我已经习惯了。在这种情况下，也没有必要进行缩放。 X = np.linspace(0, 1, 10000) y = np.random.sample(X.shape) y = np.where(y<X, 1, 0) 这里是y在X上的累加，在这里做回归并不是火箭科学。我做了一个标准的火车测试-分

浏览 7提问于2017-07-05得票数 13

回答已采纳

1回答

基于神经网络的线性回归

、、、

我正在用下面的样本训练数据处理一个回归问题。如图所示，我只输入了4个参数，其中只有一个参数在变化，即Z，因此其余参数没有实际值，而从O1到O124的124个参数的输出指出，O1的变化速率为201000，然后是1020，然后是1040 .虽然O2以不同的速率变化，即30，但对于所有的124个输出来说仍然是不变的，所有的变化都是线性的。我认为这是一个很小的问题，一个非常简单的神经网络模型将达到100%的测试数据的准确性，但结果正好相反。我使用线性回归器达到100%的测试精度，使用KNN回归器达到99.99997%的测试精度。我使用relu激活的10层神经网络测试数据的准确

浏览 1提问于2018-10-23得票数 0

1回答

如何将线性回归权传递给Xgboost回归器？

、、

我正试图为一个任务构建一个xgboost回归器或一个catboost回归器。我有一个可行的线性回归模型。我也为这项任务训练了一个xgboost回归模型，但它比线性回归模型更糟糕。我想知道是否有一种方法将线性回归权值(模型参数)作为初始参数集传递给xgboost (或catboost)模型，以确保性能增益？例如，如果w0*x0 + w1*x1 + w2*x2 + w3*x3 = y是线性回归模型，那么有什么方法可以告诉xgboost从相同的方程开始(并且在训练时变得更好)？

浏览 0提问于2019-12-18得票数 0

回答已采纳

5回答

线性回归中的梯度下降

、、、

我正在尝试用java实现线性回归。我的假设是theta0 + theta1 * xi。我正在尝试计算theta0和theta1的值，以便使成本函数最小。我正在使用梯度下降来找出值- 在 while(repeat until convergence) { calculate theta0 and theta1 simultaneously. } 在收敛之前，这种重复是什么？我知道这是局部最小值，但是我应该放在while循环中的确切代码是什么呢？我是机器学习的新手，刚刚开始编写基本的算法以获得更好的理解。任何帮助都将不胜感激。

浏览 7提问于2014-01-11得票数 2

4回答

预处理数据:回归中数据标签的规范化？

、、

最近，我被告知，回归数据的标签也应该标准化，以获得更好的结果，但我对此表示怀疑。我从未尝试过在回归和分类中标准化标签，这就是为什么我不知道这种状态是否是真的。你能给我一个明确的解释(数学或经验)关于这个问题吗？非常感谢。任何帮助都将不胜感激。

浏览 7提问于2016-04-11得票数 4

回答已采纳

1回答

回归模型中的变量选择

、、、、

我建立了价格预测数据模型，使用多元线性回归，岭，拉索和弹性网络回归，最初我有215个变量。在创建模型之后，我运行了python代码来检查最终模型中使用了多少变量，这是python代码，用于检测岭回归中变量的数量， print("Ridge Regression Selected " + str(sum(coef_ridge != 0)) + " Variables and Neglected " + str(sum(coef_ridge == 0)) + " Variables") 这是我拿出来的岭回归选择209个变量和忽略6个变量以上代码

浏览 0提问于2020-01-25得票数 0

2回答

logistic回归和线性回归有什么区别？

、、、、

我知道线性回归做“回归”，logistic回归做“分类”。当我们实现这两种方法时，我能注意到的唯一不同是损失函数:线性回归使用均方误差这样的损失函数，logistic使用交叉熵。还有什么我不知道的区别吗？

浏览 0提问于2018-09-14得票数 1

回答已采纳

1回答

一种用于情感分析的线性分类器中初始权重的确定

、、、、

我想用logistic回归建立一个简单的情感分析分类器。我从cs.uic.edu下载了一个积极和消极的单词列表。有6000多个单词，既有正面的也有负面的。线性分类器的形式为：(维基百科参考) \sum_{1}^{N} w_j*x_j 其中w是向量x的权重，N是单词的个数。例如，如果向量awesome的权重为3，那么在下面的句子中： Food is awesome and music is awesome. 根据这一公式，它将成为： 3 * 2 其中3是向量awesome的权重，2是向量本身(表示在句子中发生的次数) 我的问题是如何决定系数的开始？这会是一个人工过程吗？有6000多个字。

浏览 0提问于2018-03-07得票数 1

3回答

为什么深度学习模型与机器学习模型相比不稳定？

、、、、

我想知道为什么深度学习模式如此不稳定。假设我使用相同的数据集多次训练机器学习模型(例如logistic回归)，并多次训练深度学习模型(例如LSTM)。在此之后，我计算了每个模型的平均值及其标准差。深度学习模型的标准差比机器学习模型的标准差大得多。为什么会这样？这与深度学习方法中的权值初始化有关吗？如果是这样的话，为什么模型不总是收敛在同一点上呢？

浏览 0提问于2021-11-09得票数 4

1回答

sklearn线性回归中学习速率和迭代次数的简化

、、、

我发现，在scikit-learn中，无论是线性学习、套索学习还是岭学习都不使用学习率(我们称之为alpha)或迭代次数。我想知道他们是如何在没有学习率的情况下实现线性回归的，考虑到它是梯度下降的核心？

浏览 3提问于2020-05-15得票数 0

2回答

神经网络与线性回归梯度下降的反向传播

、、、、

我试图理解“反向传播”，因为它是使用梯度下降优化的神经网络。读一读文学作品，似乎做了几件事。使用随机权重开始并获取错误值。对损失函数执行梯度下降，使用这些权重来获得新的权重。用这些新的权重更新权重，直到损失函数最小化为止。上述步骤似乎是线性模型的精确求解过程(例如，回归)。安德鲁·吴的“机器学习课程”与线性回归课程完全一样。所以，我想弄清楚BackPropagation对损失函数是否做了比梯度下降更多的事情。如果没有，为什么只在神经网络中引用，为什么不引用GLMs (广义线性模型)。他们似乎都在做同样的事-我可能错过了什么？

浏览 11提问于2016-06-28得票数 4

回答已采纳

2回答

不同线性回归实现之间的差异

目的:求回归线(多变量超平面)的系数。最能模拟数据的方法。我们把这个叫做w 在以下方面有何区别： 1)使用MAP估计：w=(XX^T+\lambda I )^{-1}Xy^T，其中X是输入的训练数据，y是训练的输出。和 2)使用神经网络进行回归(我不知道这是如何实现的) (以及用于线性回归的任何其他方法)

浏览 0提问于2018-11-09得票数 2

1回答

验证损失不是递减的回归模型。

、、、、

我正在尝试训练一个有6个输入特性的回归模型。不是的。元组的- 7287。列车组- 5465测试装置- 1822 我试过改变不。验证损失不会减少。 NN_model = Sequential() NN_model.add(Dense(128, kernel_initializer='normal',input_dim = x_train.shape[1], activation='relu')) NN_model.add(Dense(128,kernel_initializer='normal', activation='relu&

浏览 0提问于2020-02-05得票数 0

回答已采纳

1回答

粒子群算法能在非零导数点上收敛吗？

、、、

我使用这个库- 来求凸函数的整体极小值.这只是为了开始和工作的一个非凸函数。我用线性回归找到了全局极小值，但问题是粒子群似乎在不同的点上收敛，这取决于我设置的omega和phi(s)的值。通过与线性回归给出的代价进行比较，可以确定这些点不是全局极小值。这在PSO中是否有可能收敛(值在10次迭代后不变)，还是我在某个地方犯了错误？

浏览 2提问于2018-12-06得票数 2

回答已采纳

1回答

对于特定的回归类型，梯度下降总是找到全局最小值吗？

、、

根据我的理解，线性回归被用来预测一个基于输入的输出，它使用一个线性方程来最优地拟合一些输入数据。利用损失函数对输入数据选择最佳拟合线性方程。通过模拟y= mx +b中m和b的值，可以找到具有梯度下降的最优线性方程组。我的问题是，梯度下降总是找到线性回归的全局最小损失吗？这个问题的一个扩展是，对前一个问题的答案不取决于所使用的损失函数吗？此外，当我们在m，b的图上使用梯度下降以及损失函数的值时，如果我们使用线性回归，该图是否总是凸的？

浏览 0提问于2021-10-04得票数 2

回答已采纳

1回答

是否可以在Matlab中用fitlm对一个特定变量设置多元线性回归中的固定点？

、

我在Matlab中用fitlm函数做多元线性回归，基本上看起来像这样： model = fitlm(data,'Y ~ x1*x2 + x1*x3 + x4','RobustOpts','off','Weights',w) 预测因素是绝对的和双重的。现在我知道如果x3 == 0，那么Y == 0。x3和Y都是双精度的。是否可以将此信息添加到回归模型中？如果是，是如何实现的？谢谢。

浏览 55提问于2021-01-20得票数 0

1回答

机器学习模型中的.fit()方法背后的逻辑是什么？

、

我用sci学习开始机器学习，并在机器学习中遇到了各种各样的模型。在每个模型中，都有一个fit()函数。虽然我读了很多博客文章，并且了解到fit()帮助我们找到模型的参数。例如，在线性回归模型中，fit()函数有助于找到斜率和截距。但是我仍然不能理解fit()函数背后的逻辑。

浏览 1提问于2018-02-28得票数 0

2回答

线性回归实现的性能总是比sklearn差。

、、、

我在python中实现了梯度下降的线性回归。为了了解它做得有多好，我将它与scikit-learn的LinearRegression()类进行了比较。由于某些原因，sklearn的平均性能总是超过我的程序MSE 3(我正在使用波士顿房屋数据集进行测试)。据我所知，我目前没有做梯度检查来检查收敛性，但我允许多次迭代，并且将学习速率设置得足够低，使它能够收敛。我的学习算法实现中有什么明显的缺陷吗？这是我的代码： import numpy as np from sklearn.linear_model import LinearRegression def getWeights(x): l

浏览 3提问于2014-02-08得票数 4

回答已采纳

2回答

提高混合精度稳定性的训练技巧

、、、

我希望能够在我的训练中更广泛地使用自动混合精度，但我发现它太不稳定，常常以NaNs结尾。这里的人在训练中有什么一般的技巧来提高稳定性吗？我看到了以下的一般提示：绘制梯度并将不稳定层强制到fp32 优化器中的碰撞重量衰减优化器中的凸点感应器添加/尝试不同的规范化层 fp32的力损失计算

浏览 0提问于2022-12-02得票数 2

3回答

在scikit learn库中使用sgd求解器的SGDClassifier与LogisticRegression

、、

scikit-learn库有以下类似的分类器： Logistic回归分类器有不同的求解器，其中之一是“sgd”。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression 它也有一个不同的分类器'SGDClassifier‘，损失参数可以作为逻辑回归的'log’提到。 http://scikit-learn.org/stable/modules/generated/sk

浏览 42提问于2017-05-14得票数 14

2回答

使用相同数据训练的两个神经网络的“权重”和“偏差”显著不同

、、、、

我最近被介绍到神经网络的神奇世界。我开始跟踪，它实现了一个NN来识别手写数字。它实现了一个3层网络(1输入、1隐藏和1输出)，并使用MNIST数据集进行训练。我刚刚发现，具有相似层784,30,10结构的两个神经网络的权重矩阵，使用相同的数据集进行训练，是完全不同的。偏差矩阵也是如此。一般直觉说，由于我们使用的是多个历元，并且在每个时期随机化数据，两个神经网络的权重矩阵应该收敛到相似的值。但结果却大不相同。也可能是这个原因吗？下面是NN1的头几个权重： [array([[-1.2129184 , -0.08418661, -1.58413842, ..., 0.14350188,

浏览 6提问于2020-05-12得票数 1

回答已采纳

3回答

Keras RNN损失不随时间的推移而减小。

、、、、

我使用Keras构建了一个RNN。RNN用于解决一个回归问题： def RNN_keras(feat_num, timestep_num=100): model = Sequential() model.add(BatchNormalization(input_shape=(timestep_num, feat_num))) model.add(LSTM(input_shape=(timestep_num, feat_num), output_dim=512, activation='relu', return_sequences=True))

浏览 1提问于2016-09-03得票数 5

回答已采纳

7回答

C/C++中的最小二乘回归

、、

如何在C/C++中实现因子分析的最小二乘回归？

浏览 18提问于2010-02-04得票数 2

6回答

是否可以为逻辑回归定义自己的成本函数？

、、

在最小二乘模型中，成本函数被定义为预测值与实际值之差的平方，作为输入的函数。当我们进行逻辑回归时，我们将成本函数更改为对数函数，而不是将其定义为sigmoid函数(输出值)与实际输出之间的差值的平方。是否可以更改和定义我们自己的成本函数来确定参数？

浏览 2提问于2012-08-28得票数 22

回答已采纳

2回答

R中的非线性多元回归

、、、

我试图用一个数据集在R中运行一个非线性多元回归，它有数千行，所以我把前几行放在这里： Header.1 Header.2 Header.3 Header.4 Header.5 Header.6 Header.7 1 -60 -45 615 720 1.8318 0.428 -11.614 2 -59 -45 616 720 1.8322 0.429 -11.498 3 -58 -45 617 720 1.

浏览 1提问于2013-12-21得票数 7

1回答

第一次传播后神经网络损失指数上升

、、

我正在对视频帧(转换为灰度)上的神经网络进行训练，以输出两个值的张量。第一次迭代总是计算一个可接受的损失(平均平方误差一般在15-40之间)，然后在第二次迭代中指数上升，然后是无穷大。这张网很普通： class NeuralNetwork(nn.Module): def __init__(self): super(NeuralNetwork, self).__init__() self.flatten = nn.Flatten() self.linear_relu_stack = nn.Sequential(

浏览 9提问于2022-01-02得票数 0

回答已采纳

1回答

什么是最佳的归一化技术和LSTM结构来预测有跳(离群点)的输出？

、、、、

我有一个时间序列预测用十个特征(输入)，只有一个输出。我使用22个时间步骤(特性的历史)来提前一步使用LSTM进行预测。此外，我还将MinMaxScaler应用于输入规范化，但不对输出进行规范化。输出包含一些罕见的跳转(例如20、50或超过100)，但其他值在0到~5之间(所有值都为正)。在这种情况下，正确预测正常和异常值的输出是很重要的，所以我不想错过我的预测模型中的跳跃。我认为，如果我使用MinMaxScaler作为输出，大多数值将接近于零，而其他值(异常值)将接近于一个值。，，什么是规范输出的最好方法？我是否应该不使用normalization?What来处理这个问题呢？(目前，我使用

浏览 3提问于2019-10-23得票数 2

4回答

为什么logistic回归的权重参数被初始化为零？

、、、

我已经看到神经网络的权值被初始化为随机数，所以我很好奇为什么逻辑回归的权重被初始化为零？

浏览 0提问于2017-09-10得票数 13

回答已采纳

1回答

线性回归中的数据太少，自由度太多

、

要识别手写数字，我有一个完全连接的网络，只包含两个层:输入层(图像的所有像素)和输出层(0或1)。我使用最简单的线性回归训练(梯度下降)，并取得了很好的效果。然而，我刚刚意识到我的模型比数据点有更多的自由度。假设数据都是需要识别的n_n像素图像，所以自由度是n_n+1。我使用n=50，但我只使用不到20个数据点(20个训练图片)。从线性拟合/回归的观点来看，数据点的数量至少应该超过自由度的数据点数。但是现在在我的模型中，相反的情况发生了，不应该找到解决方案。怎么了

浏览 0提问于2018-12-08得票数 4

回答已采纳

1回答

从皮涅罗和贝茨看非线性混合效应模型的收敛性问题

、

我正在进行的问题(见和)使皮涅罗和贝茨第八章中的非线性混合效应模型继续收敛。这次使用的是Quinidine数据集(第385页)。再一次，这是一个迭代的模型构建练习。我在这个系列的第三款上遇到了麻烦。 library(nlme) fm1Quin.nlme <- nlme(conc ~ quinModel(Subject, time, conc, dose, interval, lV, lKa, lCl), data = Quinidine, fixed = lV + lKa + lCl ~ 1,

浏览 2提问于2018-12-26得票数 3

回答已采纳

1回答

如何运行多个自变量的Beta回归？

为什么在0到1之间绑定的Beta回归不能将许多自变量作为回归变量处理？我有大约30个自变量，我试着去拟合，它显示了错误，比如： optim中的错误(par= start，fn = loglikfun，gr = gradfun，method = method，：optim提供的非有限值只有少数变量是accepting.Now，如果我将所有这些自变量组合在X <- (df$x1 + … + df$x30)中，然后在Y <- df$y中生成因变量，然后运行Beta回归，那么它就有效了，但是我不会得到我想要的各个独立变量的系数。 betareg(Y ~ X, data = df) 那么

浏览 3提问于2021-06-23得票数 0

1回答

Keras/Tensorflow在线性回归任务求解中的局限性

、、、

我试图在Keras/TensorFlow中实现线性回归，非常惊讶这有多么困难。标准示例对随机数据非常有用。但是，如果我们稍微更改输入数据，所有示例都会正确地停止工作。我试图找出y = 0.5 * x1 + 0.5 * x2的系数。 np.random.seed(1443) n = 100000 x = np.zeros((n, 2)) y = np.zeros((n, 1)) x[:,0] = sorted(preprocessing.scale( np.random.poisson(1000000, (n)) )) x[:,1] = sorted(preprocessing.scal

浏览 0提问于2018-11-20得票数 3

回答已采纳

1回答

线性回归中梯度下降与正态方程的差异

、、

嗨，我是线性回归的新手。我想知道机器学习线性回归中b/w梯度下降和均方误差的差异是什么？和机器学习在线性回归中何时使用梯度下降和均方误差？或者什么时候在线性回归中使用哪一种算法？有人能解释一下吗？

浏览 0提问于2018-10-04得票数 1

1回答

对于具有粘滑摩擦的动力系统，哪种策略是最好的实现策略

、、、

我正在尝试建立一个丝杠传动的理论模型，将其作为力元素参与mbs模拟。这意味着 F=blackbox(u) 在上图中，我将系统简化为一个有代表性的模型。phi_1(t)和u_1(t)是螺母的给定运动。应计算引线的运动和返回的反作用力。它们是phi_2(t)和u_2(t)。我写下了静态情况下的所有方程。但是我不确定我应该如何选择方程的运动来数值求解它们。在运动学中，您可以看到有一个内部自由度。你可以选择它作为u_2，所以根据给定的phi_1和u_1，phi_2有一种可能的位置。现在你可以根据u_2写出轴向力F和扭矩M，这样你就可以计算出影响螺纹的切向力和法向力。在这一点上我遇到了

浏览 0提问于2013-08-23得票数 0

1回答

Keras自动编码器不收敛

、、

有人能给我解释一下为什么自动编码器不收敛吗？对我来说，以下两个网络的结果应该是一样的。然而，下面的自动编码器不是收敛的，而下面的网络是。自动编码器实现，不收敛 autoencoder = Sequential() encoder = containers.Sequential([Dense(32,16,activation='tanh')]) decoder = containers.Sequential([Dense(16,32)]) autoencoder.add(AutoEncoder(encoder=encoder, decoder=decoder,

浏览 0提问于2017-10-13得票数 5

回答已采纳

2回答

指数拟合与对数线性拟合的差异

、

我有明显指数依赖的数据。我试着用两种不同的，非常简单的模型来拟合曲线。第一种是直接指数拟合。对于第二个例子，我对y值进行了日志转换，然后使用了线性回归。为了最终绘制出这条线，我把我的结果提高到了e的威力。然而，当两个地块都产生回归线时，它们看起来很不一样。另外，r^2的值也有很大的不同。谁能给我解释一下为什么相配这么不一样？老实说，我认为这两种模式都应该产生相同的曲线。下面是我用来生成曲线的代码。 import matplotlib.pyplot as plt import numpy as np from scipy.optimize import curve_fit imp

浏览 7提问于2020-11-01得票数 2

回答已采纳

1回答

适合方法运行的时间是多少？

、、

所以我用y= mx+b从头到尾写了线性回归，并运行了50个历次的算法，以最小化成本，得到最佳的参数。当我使用Scikit学习，我只是调用线性回归方法和拟合数据集，然后开始预测。适合方法运行的时间是多少？这不仅适用于线性回归，也适用于一般的其他ML方法。

浏览 0提问于2018-03-13得票数 0

2回答

为什么logistic回归被称为回归？

、、、

根据我所理解的，线性回归可以预测可以具有连续值的结果，而logistic回归预测的结果是离散的。在我看来，logistic回归类似于一个分类问题。所以，为什么叫回归？还有一个相关的问题：

浏览 9提问于2015-05-28得票数 7

回答已采纳

1回答

加权线性回归-R到Python -状态模型

、、、

我正试图将R代码转换为Python，但在复制R{stats}函数时遇到了麻烦，该函数包含“权重”，允许在拟合过程中使用权重。我的最终目标是使用状态模型库在Python中简单地运行一个加权线性回归。通过搜索Statsmodels问题，我找到了和，这使我认为这在Statsmodels中是不可能的。是否有可能在Statsmodels中向GLM模型添加权重，或者是否有更好的方法在python中运行加权线性回归？

浏览 6提问于2016-11-30得票数 1

回答已采纳

1回答

估计标准误差的回归线

、

我正在对一组数据进行回归分析，我对此数据集的主要兴趣是找到使估计的平均标准误差最小的回归线(请参见)，而不仅仅是找到最适合的线。我原以为这两件事是一样的，直到我注意到，当我重新计算基于包含新数据集的最佳拟合线时，SEE实际上增加了，而使用旧的回归方程即使包括新数据也会产生较低的SEE。SEE的计算方法如下：请参见= abs((x1-x0)/x0) 其中x1是估计值，x0是实际值。有没有人知道用R编写代码的方法，以便计算出的回归线最小化平均SEE而不是r2？或者，有没有人知道为什么最优拟合线不能最小化平均值？

浏览 0提问于2015-07-24得票数 2

1回答

多项式回归的分批梯度下降

、、、

我试图从简单的线性单变量梯度下降到更高级的东西:一组点的最佳多项式拟合。我创建了一个简单的八度测试脚本，它允许我在二维空间中可视化地设置点，然后启动梯度dsecent算法，看看它是如何逐渐接近最佳匹配的。不幸的是，它并不像简单的单变量线性回归那样有效:我得到的结果(当我得到它们时)与我所期望的多边形不一致！以下是代码： dim=5; h = figure(); axis([-dim dim -dim dim]); hold on index = 1; data = zeros(1,2); while(1) [x,y,b] = ginput(1); if( length(b

浏览 1提问于2014-07-10得票数 3

2回答

为什么特征缩放会提高梯度下降的收敛速度？

、、

在这的文章中，它说：我们可以通过缩放来加速梯度下降。这是因为θ在小范围内下降很快，在大范围范围内缓慢下降，因此当变量非常不均匀时，会低效率地振荡到最优。对于线性回归，从方程a_{n+1}=a_n-\alpha\nabla F(a_n)中，我不太清楚为什么大范围变量的收敛速度较慢，或者如何/为什么会发生振荡。

浏览 0提问于2019-07-14得票数 6

1回答

神经网络输入特征的重新标度(回归)

、、

在回归问题的神经网络中，我们发现连续标号与输出激活函数一致，即在使用logistic sigmoid时对它们进行规范化，或者在使用tanh时对它们进行调整规范化。在最后，我们可以恢复原来的范围，但使输出神经元恢复正常。我们是否也应该规范输入特性？又是如何做到的？例如，如果隐藏激活与输出激活不同？例如，如果隐藏激活是TANH，而输出激活是逻辑的，那么应该将输入特征归一化为0、1或-1间隔吗？

浏览 4提问于2013-10-11得票数 3

回答已采纳

1回答

使用sns.jointplot强制回归线通过原点

、

我对python比较陌生。我使用sns.jointplot函数将x变量和y变量绘制在一起。我知道当y为零时，x也必须为零。有没有办法强制回归线穿过原点来满足这一论点？谢谢

浏览 0提问于2019-09-18得票数 0

2回答

ReLU函数如何导致收敛？

、、

梯度下降算法是基于梯度随着我们向最优点的移动而减小的事实。但是，在ReLU函数的激活中，梯度将是恒定的，并且不会随着输入的变化而改变。我不清楚这将如何最终导致趋同。如果你能用数学推导来解释这一点，我将不胜感激。谢谢

浏览 0提问于2021-07-23得票数 1

1回答

了解回归结果

、、、、

我有一组描述不同时间点的现象的数值特征。为了评估每个特性的个别性能，我进行了一个线性回归，并排除了一个验证，并计算了相关性和误差，以评估结果。因此，对于一个功能，应该是这样的：输入:特征F= {F_t1，F_t2，.F_tn} 输入:唯象P= {P_t1，P_t2，.P_tn} 根据F对P进行线性回归，再加上剔除1。评估:计算相关性(线性和spearman)和误差(平均绝对值和均方根) 对于一些变量，这两种相关性都很好(> 0.9)，但是当我看一下预测时，我意识到预测都非常接近平均值(所预测的值)，所以误差很大。那件事怎么可能？有办法解决吗？为了获得一

浏览 1提问于2015-12-08得票数 0

回答已采纳

1回答