如何对不同特征工程过程中的特征进行标准化和规范化？

特征工程中的标准化和规范化是数据预处理的重要步骤，目的是使不同特征的量纲和范围一致，从而提高模型的性能和稳定性。以下是关于特征标准化和规范化的基础概念、类型、应用场景以及常见问题解决方案的详细介绍：

基础概念

特征工程是指对原始数据进行处理，提取出有助于模型训练的特征的过程。标准化和规范化是特征工程中的两种常用技术：

标准化（Standardization）：将特征缩放到均值为0，标准差为1的分布，通常使用Z-score标准化公式： [ x' = \frac{x - \mu}{\sigma} ] 其中，( x ) 是原始特征值，( \mu ) 是特征的均值，( \sigma ) 是特征的标准差。
规范化（Normalization）：将特征缩放到一个特定的范围，通常是[0, 1]，使用Min-Max规范化公式： [ x' = \frac{x - \min(x)}{\max(x) - \min(x)} ] 其中，( x ) 是原始特征值，( \min(x) ) 和 ( \max(x) ) 分别是特征的最小值和最大值。

类型

线性变换：包括上述的标准化和规范化，都是线性变换。
非线性变换：如对数变换、平方根变换等，适用于特征值分布偏斜的情况。

应用场景

机器学习模型：如线性回归、支持向量机（SVM）、K近邻（KNN）等对特征的尺度敏感，标准化和规范化可以提高模型性能。
深度学习模型：在神经网络中，标准化和规范化有助于梯度下降算法的收敛。
数据可视化：规范化后的数据更适合进行可视化分析。

常见问题及解决方案

特征值中存在缺失值：
- 解决方案：在标准化或规范化之前，先处理缺失值，可以使用均值、中位数填充，或者删除含有缺失值的样本。

特征值范围差异巨大：
- 解决方案：使用规范化（如Min-Max规范化）来缩放到相同范围。
特征值分布偏斜：
- 解决方案：使用非线性变换（如对数变换）来减少偏斜。
标准化后的数据仍然不符合正态分布：
- 解决方案：可以尝试其他变换方法，如Box-Cox变换。

示例代码

以下是使用Python和Scikit-learn库进行特征标准化和规范化的示例代码：

import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 示例数据
data = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])

# 标准化
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)
print("Standardized Data:\n", standardized_data)

# 规范化
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
print("Normalized Data:\n", normalized_data)

参考链接

通过上述方法，可以有效地对不同特征工程过程中的特征进行标准化和规范化，从而提升模型的性能和稳定性。

特征标度与平均归一化

、、

在我的机器学习课上，讨论了这两种方法，并提到这两种方法都应该使用。我对此有几个问题： 1)我能否将这两种方法混合起来并加以匹配？例如特征标度x1和均值规范化x2？ 2)你如何决定这些选项中的哪一种？似乎两种方法都能完成提高收敛速度的任务.我想，您只需要知道您的数据集，就可以了解哪些数据集将可靠地减少您的值，同时尽可能少地保留异常值？

浏览 0提问于2015-11-20得票数 3

回答已采纳

1回答

为什么机器学习需要标准化和规范化？

、、、

数据标准化和标准化，那么这些术语之间有什么区别呢？

浏览 0提问于2018-10-20得票数 0

回答已采纳

1回答

我们如何选择应该标准化或缩放的特性(列)？

、、

我是一个机器学习的新手，我正在经历缩放和规范化。当我试图浏览web上的大多数文档时，我发现人们解释说，数据集需要进行缩放和标准化。但想知道什么时候应该缩放或规范一列？以及如何在dataset中选择用于缩放和规范化的特性/列。以及如何决定为列选择哪种规范化算法？

浏览 0提问于2020-11-17得票数 0

2回答

我正在尝试对生物数据进行预处理以训练神经网络，尽管对各种归一化方法进行了广泛的搜索和重复介绍，但我仍然不知道何时应该使用哪种方法。特别是，我有许多输入变量是正向倾斜的，并一直在试图确定是否存在最合适的归一化方法。我还担心这些输入的性质是否会影响网络的性能，因此我尝试了数据转换(特别是日志转换)。然而，一些输入有许多零，但也可能是小的十进制值，似乎受到log(x + 1) (或1到0.0000001之间的任何数字)的高度影响，结果分布无法接近正态分布(要么保持倾斜，要么变成双峰，在最小值处有一个尖锐的峰值)。这些都与神经网络有关吗？即。我是应该使用特定的特征转换/归一化方法来解释倾斜的数据，

浏览 6提问于2012-11-08得票数 5

回答已采纳

2回答

数据科学标度/规范化实例化

、、、

在进行数据预处理时，建议对数据进行缩放或规范化.当你手上有数据时，这是很容易做到的。你有所有的数据，可以马上做。但是，在模型建立和运行之后，是否需要对第一个输入的数据进行缩放或标准化？如果需要的话，它只需一行，如何缩放或规范化？我们如何从每个特性中知道min/max/均/stdev是多少？而传入的数据如何是最小/最大/平均每个特性？请指教

浏览 2提问于2017-09-04得票数 0

回答已采纳

2回答

标准正态分布与平均归一化特征缩放方法有什么区别？

、、、、

标记特性缩放似乎传达了一种缩放方法是标准正态分布。此外，我在这个网站上读到了一个答案，说这意味着规范化是一种功能缩放形式。两种缩放方法的区别是什么？注:我认为标准化的统计和数学确实不同。

浏览 0提问于2020-05-26得票数 0

4回答

分类编码前后的标准化？

、、、、

我正在研究一种回归算法，在这种情况下，k-NearestNeighbors可以预测某个产品的价格。所以我有一个训练集，它只有一个分类特征和4个可能的值。我已经使用了一对k分类编码方案来处理它，这意味着现在我的Pandas DataFrame中还有3列，其0/1取决于当前值。 DataFrame的其他特征主要是位置和价格的纬度-经度等距离，所有这些都是数字的。应该标准化(均值和单位方差为零的高斯分布)，并在分类编码前后进行规范化吗？我在想，在编码后进行规范化可能是有益的，这样在测量邻居之间的距离时，每个特征对估计器都一样重要，但我不太确定。

浏览 0提问于2017-11-13得票数 8

回答已采纳

1回答

Z得分连续归一化r数据帧

、、

我想通过使用函数scale()计算z- data.frame来归一化R分数。然而，我不确定这种方法是否会受到“前瞻性偏差”的影响，这是一个金融术语，指的是在分析期间不知道或不能使用的功能。这些是股票回报，我想使用这些数据进行“反向测试”(一个用于验证的金融术语)。在计算z-score时，我希望确保每个周期的z-score只使用该点之前可用的数据，而不是整个序列的平均值和std。有谁知道如何计算这个值吗？还是有不同的方法？

浏览 1提问于2018-07-02得票数 0

1回答

NeuralNet回归、输入归一化/输出去正规化与激活函数的作用？

、、、

给出了训练数据集、训练集(m )和训练集(m，)以及一些神经网络序列模型。培训数据何时和范围也必须标准化？预测值应该如何去规范化？不同层的激活函数的选择对此有何影响？，我们是否必须对Xtrain数据进行规范化？，我们规范的范围是否取决于输入层激活函数域？或者所有激活函数都会影响到它，因此应该将其规范化为模型中所有激活函数的公共范围？。对于用于训练的目标(ytrain)： denormalized?does，，它必须标准化为输出层的范围，激活函数还是所有层的公共范围？非常迷茫，所以对我来说任何关于这件事的说明都将是非常感谢的。

浏览 2提问于2020-05-22得票数 0

1回答

如果我不做任何数据规范，datagen.fit是否需要在Keras中？

、、、、

我使用keras训练图像分类问题如下： datagen = ImageDataGenerator( featurewise_center=False, featurewise_std_normalization=False, rotation_range=20, width_shift_range=0.2, height_shift_range=0.2, horizontal_flip=True) # compute quantities required for featurewise normalization # (std, mean,

浏览 0提问于2018-02-16得票数 1

回答已采纳

2回答

我们是否也应该将标准化应用于测试数据？

、、

我正在做一个关于作者识别问题的项目。我应用tf-以色列国防军归一化训练数据，然后就这些数据训练了一个支持向量机。现在，当使用分类器时，我也应该标准化测试数据。我认为规范化的基本目标是使学习算法在学习过程中更加重视更重要的特征。因此，一旦它被训练，它已经知道哪些特征是重要的，哪些不重要。那么，是否也需要将标准化应用于测试数据呢？我是这个领域的新手。所以，如果这个问题显得很傻，请忽略它？

浏览 0提问于2018-02-08得票数 42

回答已采纳

2回答

什么时候使用标准缩放器和规范器？

、、、

我理解标准标量做了什么和标准化器做了什么，根据scikit文档：正火器，标准标尺。我知道标准Scaler何时被应用。但是在哪种情况下应用了规范化程序呢？是否有一种方案比另一种方案更可取？

浏览 0提问于2019-02-20得票数 22

1回答

什么时候做功能缩放？在提取之前还是之后？

、

我计划对多维传感器数据进行支持向量机分类。有两个等级和13个传感器。假设我想要提取特征，例如平均值、标准差等等。我从某个地方读到，在应用支持向量机之前，我们需要进行特征缩放。我想知道什么时候应该进行缩放，在提取特征之前还是在提取特征之后？

浏览 2提问于2016-06-30得票数 1

回答已采纳

3回答

我需要标准化我的一个热编码标签吗？

、

我试图做一个简单的softmax回归，其中我有特性(2列)和一个热编码的标签向量(两个类别:左=1和右= 0)。我需要标准化的只是特征向量还是标签向量？当我这样做的时候，我所有的零和1都转换成不同的数字，而且我也不知道如何识别谁是左的还是右的。我用的是mxnet和胶子。下面是我如何标准化:标签=(标签-labels.mean()/ (labels.max() -labels.min() 标准化前标签：[0。1.1.1.1。标签标准化后：[-0.5633803 0.43661973 0.43661973 0.43661973 . 如果我的预测实际上给了我左或右，那么在识别(字符串)之后，我该如

浏览 0提问于2019-07-26得票数 5

2回答

KNN归一化的精度差

、、、

我对KNN分类算法进行了训练，得到了97%的准确率。然而，我后来注意到，我错过了规范我的数据，我规范了我的数据和重新训练我的模型，现在我得到的准确率只有87%。可能是什么原因？我应该坚持使用未标准化的数据，还是应该切换到规范化版本。

浏览 2提问于2017-02-07得票数 7

回答已采纳

1回答

机器学习预处理中的大范围缩放数据

我对机器学习非常陌生。我正在尝试在包含近50个特性的数据上应用ML。有些特性的范围从0到1000000，有些特性的范围从0到100，甚至更少。现在，当我使用MinMaxScaler for range (0,1)来进行功能缩放时，我认为具有大范围的特性可以缩小到非常小的值，这可能会影响我给出很好的预测。我想知道是否有一些有效的方法来进行缩放，以便所有的特性都能适当地缩放。我也试过标准的定标器，但准确性没有提高。另外，我还可以对某些特性使用不同的缩放函数，对于其余的功能可以使用另一种。提前感谢！

浏览 0提问于2018-07-16得票数 4

回答已采纳

1回答

ML数据预处理背后的直觉

、、

我正在通过来理解神经网络的基础知识。附在幻灯片中，贾斯汀(导师)给出了为什么需要进行数据预处理的理由，而我并不完全理解。给出的解释和幻灯片上的解释很相似，但我不明白。幻灯片在下面。我的第二个问题是:它实际上是正常化还是标准化？这个链接意味着它是，而课程材料说它是。任何帮助都将不胜感激。

浏览 1提问于2020-05-21得票数 0

回答已采纳

1回答

如何对张量数据的均值和标准差进行增量更新？

、

我有一个很大的数据集(大约400 so )，它由张量数据(shape is (600, 600, 10))组成，我想在将这个数据集输入到一个神经网络之前对它进行规范化，但是这个数据集不适合我的记忆，所以我想知道均值和标准差的增量更新。公式是这里，但我不知道如何在张量情况下调整它们，因为我不是每个新的迭代步骤只有一个值，而是一个整体张量，而且我不能取这个新张量的平均值，因为平均值并不是整个数据集的平均值。

浏览 0提问于2022-09-27得票数 1

回答已采纳

1回答

规范化LastFM标签

、、

我从LastFM上抓取了这组音乐数据，现在，我想根据每个曲目的一个标签对歌曲进行归一化和分类。我拿到了这张大师级流派名单，但同样，我如何识别，J- Pop，JPop和日本流行音乐都是一样的日本流行音乐？有没有一个web应用程序接口或数据库可以用来获得规范化的流派？谢谢你的帮助。

浏览 0提问于2012-04-17得票数 0

1回答

回归模型的输出(如SVR )是否应该标准化？

、、、

我有一个回归问题，我用SVR解决了。不小心，我将输出与输入一起归一化，去掉平均值，除以每个特性的标准差。令人惊讶的是，Rsquare得分增加了10%。如何解释输出归一化对svm回归的影响？

浏览 0提问于2018-01-23得票数 3

回答已采纳

1回答

聚类前的归一化

、、、、

如果我们有分类数据，而分类数据是使用虚拟对象和标签编码转换为数值的，那么在聚类之前是否必须对数据进行标准化？如果是，那么在这种情况下使用哪种标准化技术最合适？

浏览 0提问于2019-12-30得票数 0

2回答

拉索回归采用哪种标准化技术？

、、、

我是拟合拉索回归做特征选择在我的数据集。我已经看到使用StandardScaler来标准化数据集是一种常见的做法。然而，考虑到我的数据集的分布是非高斯的，那么使用StandardScaler仍然有意义吗?如果是的话，为什么？还是其他标准化技术优先考虑？

浏览 0提问于2022-12-08得票数 0

3回答

用于图像分割的Tensorflow :批量归一化性能最差

、、、

我用TensorFlow来解决多目标回归问题。具体而言，在完全卷积的像素级标记的残差网络中，输入是图像，标签是掩码。在我的例子中，我使用的是大脑MR图像，标签是肿瘤的面具。我用我的网取得了相当不错的成绩：虽然我相信仍有改进的余地。因此，我想添加批处理规范化。我将其具体实施如下： # Convolutional Layer 1 Z10 = tf.nn.conv2d(X, W_conv10, strides = [1, 1, 1, 1], padding='SAME') Z10 = tf.contrib.layers.batch_norm(Z10, center=True

浏览 1提问于2018-03-07得票数 1

回答已采纳

1回答

行列归一化差异

我正在进行数据分析，需要对数据进行规范化。我使用了下面的coomand来实现标准化z1<-data.Normalization(hfiltered,type = "n10",normalization = "row",na.rm=FALSE) 和z<-data.Normalization(hfiltered,type = "n1",normalization = "column",na.rm=FALSE)。但不明白列规范化和行规范化之间有什么区别。

浏览 1提问于2020-02-18得票数 1

回答已采纳

1回答

数据标准化还是智能搜索？

、、、、

我的mysql表包含字段，比如大学。它可以有以下字段，例如- IIT I.I.T. Indian Institute Of Tech. Indian Institute Of Technology I-I-T 现在，当用户搜索IIT时，我想搜索并显示所有这些选项，而不仅仅是IIT。那么更好的方法是什么呢？将数据库中的最后4个选项替换为IIT或在搜索中，我们了解到IIT也与其他选项相匹配。有多受欢迎的网站实现了这个代码?？感谢您的帮助。 (我正在使用mysql、sphinxsearch、php……但欢迎提供任何逻辑!!)

浏览 1提问于2014-09-22得票数 2

2回答

SVM分类器中特征长度与预测的关系

、、、

目前，我正在使用opencv中的SVM分类器进行英语字母分类。我对做以上的事有疑问。特征向量的长度如何取决于分类？(如果特征长度增加(我当前的特征长度为125)，会发生什么？预测所需的时间是否取决于用于培训的数据的数量？为什么我们需要对特征向量进行归一化(这会提高预测的准确性和预测类所需的时间吗)？如何确定特征向量归一化的最佳方法？

浏览 5提问于2015-01-06得票数 1

回答已采纳

2回答

WEKA IBK (KNN)算法如何引导非规范化属性？

、、

我有两个具有不同属性尺度的类的大型数据集(例如，一些属性从5到10，其他属性从0到100 )。我知道如果我直接使用kNN算法，这种差异将使分析无效，我需要对属性进行规范化。 WEKA上的一些分类器似乎可以进行这种归一化，比如RBF或SMO，但我需要使用其他分类器，首先是IBK分类器(KNN)。 weka在某种程度上是领先的吗？如何在KNN分类中合并标准化过程？谢谢

浏览 0提问于2013-05-23得票数 1

2回答

特征归一化问题

、、、、

我对ML非常陌生，对此知之甚少。我在功能规范化过程中有问题。我从帖子中了解到，我们需要规范化培训功能，并使用培训数据扩展测试/验证功能。我在实现方面面临问题，就像我的例子中，我的训练样本有固定的维度，但是验证和测试数据的维度是可变的。因此，我可以将零均值单位方差用于训练数据，但我不确定如何规范验证/测试数据样本，因为样本的维数/长度是可变的/不固定的。

浏览 0提问于2021-04-28得票数 0

1回答

跨不同数据集扩展的最佳方法

、、、、

在对数据进行预处理时，我遇到了一种特殊的情况。假设我有一个dataset A。我将数据集拆分为A_train和A_test。我使用任何给定的定标器(sci学习)来安装A_train，并使用该scaler转换A_test。利用A_train对神经网络进行训练，并在A_test上进行验证，效果良好。没有越位和性能良好。假设我的dataset B具有与A相同的特性，但功能的值范围不同。A和B的一个简单例子可以分别是波士顿和巴黎住房数据集(这只是一个类推，可以说诸如成本、犯罪率等特征的变化很大)。为了在B上测试上述训练模型的性能，我们根据B的缩放属性对A_train进行了转换，并进行了验证。这通常

浏览 0提问于2019-05-03得票数 0

2回答

具有多值数据的多类分类

、

我实现了一个多类分类，并希望使用MNIST数据集对其进行测试。我意识到如果我使用标准化 X \leftarrow \frac{X-mean(X)}{std(X)}，超过50%的所有功能将为零。这有问题吗？在这种情况下进行规范化工作更有意义吗？ X \leftarrow \frac{2(X-min(X))}{max(X) - min(X)} - 1，所以所有的功能都在-1和1之间？首先进行标准化，然后再进行标准化步骤如何？

浏览 0提问于2019-11-19得票数 2

4回答

PCA优先还是归一化优先？

、、、、

在进行回归或分类时，预处理数据的正确(或更好)方法是什么？标准化data -> PCA ->训练 PCA ->归一化PCA输出->训练归一化数据-> PCA ->归一化PCA输出->训练以上哪一项更正确，还是预处理数据的“标准化”方法？所谓“标准化”，我指的是标准化、线性缩放或其他一些技术。

浏览 473提问于2012-04-12得票数 23

回答已采纳

1回答

我必须标准化我的新多项式特征吗？

、、、

我有一个向量X，它有以前标准化的n个特征。如果我想要生成新的多项式特征(比方说添加平方特征)，那么在计算之后是否需要对这些新特征进行另一次标准化？因为知道我的原始特征已经在0到1之间，新的多项式特征也将介于0到1之间，但是程度越高，原始特征和多项式特征之间的“比率”就越高。另外，这样做是否更好，对非标准化特征的值进行平方计算，然后标准化这些新特征？顺便说一句，当我说“标准化”时，我正在考虑用平均值减去每个值，并将其除以std。提前谢谢你，致以问候。

浏览 0提问于2015-11-25得票数 13

回答已采纳

4回答

如何使用sklearn.preprocessing.normalize对DataFrame的列进行规范化？

、、、

有没有办法使用sklearn的normalize对DataFrame的列进行标准化？我认为默认情况下它会将行规范化。 For example, if I had df: A B 1000 10 234 3 500 1.5 我希望获得以下内容： A B 1 1 0.234 0.3 0.5 0.15

浏览 0提问于2019-05-10得票数 2

1回答

对于具有单个功能的功能集而言，功能缩放是否是必需的？

、、、

我知道，特征缩放是需要在一个共同的尺度上以不同程度的特征，所以该模型不偏向于高幅度的特征。但是，如果在一个功能集中只有一个特性。例如，我有一个时间序列上的数量(随时间变化的事件)，并对未来进行预测。在这种情况下，我需要功能缩放(规范化还是标准化？)还是没有必要呢？我在网上搜索，但找不到关于功能集中只有一个特性的情况的资源。

浏览 0提问于2020-11-25得票数 2

1回答

当所有列都有大致相同的方差时，维数的降维和预测

、、、、

我有一个25列的数据集，目标是根据前24列预测第25列的值。数据集相当大，这就是为什么我最初认为在进行任何预测之前都要继续进行PCA。问题是PCA没有产生任何好的结果，因为它输出了在每台PC上解释的4%的方差。我怀疑这可以归因于这样一个事实，即所有列的差异大致相同(比方说，每列的差异从90%到91%)。我想知道在这种情况下可以做些什么来降低维数，以及什么数据科学算法最适合解决这个问题。我已经尝试过OLS，随机森林，SVR和梯度增强回归，但他们的分数在目前看来相当令人失望，撇开计算时间是相当大的事实。

浏览 0提问于2020-04-11得票数 0

回答已采纳

1回答

在培训、测试和生产过程中如何准备数据？

、、、、

大多数真实世界的数据集都有缺少值的特性。将缺失值替换为适当的值(如平均值)是特征工程中的一个很好的步骤。有时，我们还会在输入特性列以训练模型之前对其进行标准化/规范化。在建模之前，我们还将数据集拆分为培训和测试集。我的第一个问题是如何在这个分裂的数据集中进行特性工程？我们是使用未分割特征的全局平均值来替换训练和测试集中这些特征的缺失值，还是应该使用这些集合的本地均值？就像上面的问题，我们如何对火车，测试数据集进行规范化？最后一个但很重要的问题是，在产品中，我们通常一次只得到一个特性值(比如一行特性)，我们如何设计这些数据行呢？

浏览 0提问于2020-12-16得票数 4

1回答

图像分类问题的规范化与标准化

、、、

对于白天和晚上的图像分类，是更好的规范化或标准化的图像？一般来说，我应该在什么时候使用每种方法？我对为什么一种方法比另一种方法更喜欢的例子感兴趣？这里，我的意思是将像素值除以255。标准化是指减去像素的平均值，再除以标准差。请参阅下面的代码示例 # normalization datagen = ImageDataGenerator(rescale=1.0/255.0) 或 # stardartization datagen = ImageDataGenerator(samplewise_center=True, samplewise_std_normalization=True)

浏览 0提问于2021-05-16得票数 2

回答已采纳

1回答

标准化和以数据为中心意味着什么？

规范数据是否在0-1范围内，数据的平均值也在0-1之间？什么是第一位重要吗？如果你做了一个，另一个不是必需的吗？

浏览 0提问于2016-07-15得票数 1

回答已采纳

2回答

OpenCV HOGDescriptor返回值

、、、

为什么HOG描述符返回float的向量而不是int？它应该返回一个直方图。

浏览 4提问于2016-06-22得票数 1

回答已采纳

3回答

Python中随机梯度下降的岭回归方法

、、、、

我试图在Python中用随机梯度下降作为求解器来实现岭回归的解决方案。我的SGD代码如下： def fit(self, X, Y): # Convert to data frame in case X is numpy matrix X = pd.DataFrame(X) # Define a function to calculate the error given a weight vector beta and a training example xi, yi # Prepend a column of 1s to the data for the

浏览 12提问于2017-04-27得票数 1

1回答

如何为机器学习设计特征

、、、、

你有什么建议或阅读如何设计一个机器学习任务的功能吗？即使对神经网络来说，良好的输入特性也很重要。所选择的特征将影响所需的隐藏神经元数量和所需的训练示例数。下面是一个示例问题，但我对一般的特性工程很感兴趣。一个动机例子：，当看一个谜题(例如，或)时，什么是一个很好的输入？是否有可能认识到两个州中哪个更接近这个目标？

浏览 3提问于2010-04-20得票数 34

回答已采纳

1回答

扩展数值数据集的最佳方法是什么？

、、、

我有一个不同属性的数据集，它们的值没有相同的范围，当我们需要计算对象之间的距离时，这是一个问题。经过一些研究发现，我可以用这个公式(值- min )/( max -min)进行正则化工作，其中min和max分别是val属性域中的最小值和最大值。问题是，它是否以其他方式存在？谢谢你的帮助。

浏览 0提问于2015-04-22得票数 2

回答已采纳

1回答

Python和SAS生成具有相同abs的PCA数据。价值只是倒转的迹象--为什么？

、、

我正在构建一个Python 3(熊猫用于数据操作，numpy用于PCA通过SVD)，以模仿我在研究生院编写的一些代码。该代码在SAS 9.4中，使用PROC IML调用光谱矩阵上的svd。SAS代码： data Raman1; infile "Combined SpectraC.csv" dsd firstobs=2; input Wavenumber R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17 R18 R19 R20 R21; run; proc iml; use Raman1; read all va

浏览 2提问于2020-04-29得票数 0

回答已采纳

1回答

如何处理神经网络中的不连续输入分布

、、

我用Keras建立神经网络。作为输入数据，我使用向量，其中每个坐标可以是0(特征不存在，也可以不测量)，或者值可以在5,000到10000之间。所以，我的输入值分布是一种以高斯为中心的分布，假设在7500左右，加上一个非常薄的峰值，在0。我不能移除某些坐标中的0向量，因为几乎所有的向量在某些位置上都有0。因此，我的问题是：“如何对输入向量进行最佳规范化?”我认为有两种可能性：只是减去平均值，然后除以标准差。问题是，均值被大量无意义的0值所偏倚，而std值被高估，这就消除了有意义的measurement.compute中的细微变化--非零坐标上的均值和标准差，这更有意义。但是，所有与非测

浏览 3提问于2022-06-18得票数 0

回答已采纳

3回答

我应该什么时候使用StandardScaler，什么时候使用MinMaxScaler？

、、、

我有一个有一个热编码特征和连续特征的特征向量。现在我如何决定，哪些数据使用StandardScaler进行缩放，哪些数据使用MinMaxScaler进行缩放？我想我不需要缩放一个热编码，因为它们已经在0到1之间了。 (我在MLPClassifier之后使用)

浏览 0提问于2019-01-14得票数 17

1回答

在机器学习的堆叠中，你应该按什么顺序训练模型？

我目前正在学习在一个机器学习问题中做堆叠。我将获取第一个模型的输出，并将这些输出用作第二个模型的特征。我的问题是:顺序重要吗？我使用的是套索回归模型和增强树。在我的问题中，回归模型的性能优于boosted树。因此，我认为我应该第二次使用回归树，第一次使用增强树。在做这个决定时，我需要考虑哪些因素？

浏览 2提问于2017-10-17得票数 0

1回答

当目标接近0时，LSTM回归偏差增加

、、、

我建立了一个时间序列预测的LSTM模型。结果不差，平均归一化误差为7%。然而，这种归一化偏差显示了一个明显的模式:预测值越接近于预测值，偏差就越高，如下图所示： 📷 注1:为了清晰起见，在图中缩放了True和Pred值注2:偏差不是常数，未归一化的偏差(或偏差)显示相同的模式。模式： * 1 LSTM layer with 256 hidden units and no peep-holes * Dropout in LSTM with keep_prob = 0.8 * One Dense Layer after the LSTM with 128 units with relu act

浏览 0提问于2018-11-29得票数 2

回答已采纳

1回答

Sklearn Lasso回归比岭回归差几个数量级？

、、、

我目前已经使用sklearn.linear_model模块实现了岭和套索回归。然而，在同一数据集上，套索回归似乎要差3个数量级！我不确定出了什么问题，因为从数学上讲，这是不应该发生的。下面是我的代码： def ridge_regression(X_train, Y_train, X_test, Y_test, model_alpha): clf = linear_model.Ridge(model_alpha) clf.fit(X_train, Y_train) predictions = clf.predict(X_test) loss = np.sum(

浏览 1提问于2016-03-01得票数 4

1回答

使用ImageDataGenerator时不理解规范化

、

我试图用Tensorflow作为后端的Keras构建一个简单的图像分类器。然而，我很难理解在Keras中是如何实现名词化的。据我理解，在机器学习中，计算训练+验证集的均值和std，然后在标准化测试集和对新数据进行预测时重用平均值和std。因此，考虑到这一点，我将解释我在Keras的每个部分不理解的地方。 train_datagen = ImageDataGenerator(rescale=1./255, samplewise_center=True, samplewise_std_normalization=True, shear_range=0.2, zoom_range=0.2) tes

浏览 0提问于2018-03-03得票数 2

1回答