如何在Python中规范化和标准化时间序列数据

如果您的时间序列数据具有连续的尺度或分布,则在某些机器学习算法将获得更好的性能。

您可以使用两种技术来持续重新调整时间序列数据,即标准化和标准化。

在本教程中,您将了解如何使用Python对时间序列数据进行规范化和标准化。

完成本教程后,你将知道:

  • 标准化的局限性和对使用标准化的数据的期望。
  • 需要什么参数以及如何手动计算标准化和标准化值。
  • 如何使用Python中的scikit-learn来标准化和标准化你的时间序列数据。

让我们开始吧。

Photo by Sage Ross

如何规范化和标准化Python中的时间序列数据

最低每日温度数据集

这个数据集描述了澳大利亚墨尔本市十年(1981-1990)的最低日温度。

单位是摄氏度,有3650个观测值。数据来源于澳大利亚气象局。

以下是前5行数据的示例,包括标题行。

"Date","Temperatures"

"1981-01-01",20.7

"1981-01-02",17.9

"1981-01-03",18.8

"1981-01-04",14.6

"1981-01-05",15.8

以下是从Data Market获取的整个数据集的图表。

最低日温度

该数据集显示了一个强大的季节要素,并有一个很好的,细致的细节工作。

在此下载并了解有关数据集的更多信息

本教程假定数据集位于当前工作目录中,文件名为daily-minimum-temperatures-in-me.csv ”。

注意:下载的文件包含一些问号(“?”)字符,在使用数据集之前必须将其删除。在文本编辑器中打开文件并删除“?”字符。也删除该文件中的任何页脚信息。

规范时间序列数据

规范化是对原始范围的数据进行重新调整,以使所有值都在0和1的范围内。

标准化可能是tve 有用的,甚至在一些机器学习算法中,当你的时间序列数据具有不同尺度的输入值时,也是必需的。对于某些算法来说它是必需的,比如使用距离计算和线性回归以及人工神经网络来衡量输入值的k-最近邻居算法。

标准化要求您知道或能够准确估计最小和最大可观测值。您可以从您的可用数据中估计这些值。如果您的时间序列呈现上升趋势或下降趋势,那么估计这些预期值可能会很困难,并且标准化法可能不是用于解决问题的最佳方法。

一个标准化的值如下:

y = (x - min) / (max - min)

最小值和最大值与规范化的值x有关。

例如,对于温度数据,我们可以猜测最小和最大的可观测值为30和-10,这会极大高估或低估观测值。然后,我们可以像18.8那样规范化任何值,如下所示:

y = (x - min) / (max - min)

y = (18.8 - -10) / (30 - -10)

y = 28.8 / 40

y = 0.72

您可以看到,如果提供的x值超出了最小值和最大值的范围,则结果值将不在0和1的范围内。您可以在进行预测之前检查这些观察值,并从数据集删除他们或限制他们到预先定义设的最大值或最小值。

您可以使用scikit-learn对象MinMaxScaler来标准化数据集。

使用MinMaxScaler和其他缩放技术的良好范例如下:

  1. 利用可用的训练数据适配缩放器。对于标准化,这意味着训练数据将被用于估计最小和最大可观测值。这是通过调用fit()函数完成的,
  2. 将这个范围用于训练数据。这意味着你可以使用规范化的数据来训练你的模型。这是通过调用transform()函数完成的
  3. 将这个范围用于未来的数据。这意味着您可以在未来准备新的数据,在其中进行预测。

如果需要,转换可以被颠倒。这对于将预测转换回其原始比例以进行报告或绘图非常有用。这可以通过调用inverse_transform()函数来完成。

以下是标准化每日最低温度数据集的示例。

缩放器需要将数据作为行和列的矩阵来提供。加载的时间序列数据以Pandas 序列的形式加载。然后它必须被重新塑造成一个有单列3650行的矩阵。

然后,调整后的数据集被用于拟合缩放器,数据集被归一化,然后归一化变换被反转以再次显示原始值。

# 从 pandas 规范化数据

from pandas import Series

from sklearn.preprocessing import MinMaxScaler

# 载入数据集并打印前5行

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

print(series.head())

# 准备要规范化的数据

values = series.values

values = values.reshape((len(values), 1))

# 训练规范化规则

scaler = MinMaxScaler(feature_range=(0, 1))

scaler = scaler.fit(values)

print('Min: %f, Max: %f' % (scaler.data_min_, scaler.data_max_))

# 规范化数据集并打印前 5 行

normalized = scaler.transform(values)

for i in range(5):

print(normalized[i])

# 逆变换并打印前 5 行

inversed = scaler.inverse_transform(normalized)

for i in range(5):

print(inversed[i])

运行示例将打印加载的数据集中的前5行,以规范化的形式显示相同的5个值,然后使用逆变换将值返回原始比例。

我们也可以看到数据集的最小值和最大值分别是0和26.3。

Date

1981-01-01 20.7

1981-01-02 17.9

1981-01-03 18.8

1981-01-04 14.6

1981-01-05 15.8

Name: Temp, dtype: float64

Min: 0.000000, Max: 26.300000

[ 0.78707224]

[ 0.68060837]

[ 0.7148289]

[ 0.55513308]

[ 0.60076046]

[ 20.7]

[ 17.9]

[ 18.8]

[ 14.6]

[ 15.8]

另外一种类型的范围调整对于超出期望值范围的新值更为稳健; 这就是所谓的标准化。接下来我们将一探究竟。

标准化时间序列数据

标准化数据集涉及重新标定值的分布,以使观测值的平均值为0,标准偏差为1。

这可以被认为是减去平均值或居中数据。

与标准化一样,标准化是很有用的,甚至在某些机器学习算法中是必需的,特别是当您的时间序列数据具有不同比例的输入值时。

标准化假设你的观测符合高斯分布(钟形曲线),表现出良好的均值和标准差。如果不符合期望,您仍然可以将时间序列数据标准化,但是可能无法获得可靠的结果。

这包括支持向量机,线性和逻辑回归等算法,以及假定或改善高斯数据性能的其他算法。

标准化要求您知道或能够准确估计可观察值的均值和标准差。您可能能够从您的训练数据中估计这些值。

价值标准化如下:

y = (x - mean) / standard_deviation

平均值的计算公式为:

mean = sum(x) / count(x)

standard_deviation的计算方式如下:

standard_deviation = sqrt( sum( (x - mean)^2 ) / count(x))

例如,我们可以绘制最小日温度数据集的直方图,如下所示:

from pandas import Series

from matplotlib import pyplot

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

series.hist()

pyplot.show()

运行代码给出下图,显示了数据集的高斯分布,正如标准化所假定的那样。

最低每日温度直方图

我们可以猜测平均温度为10,标准偏差约为5.使用这些值,我们可以将数据集20.7中的第一个值标准化如下:

y = (x - mean) / standard_deviation

y = (20.7 - 10) / 5

y = (10.7) / 5

y = 2.14

数据集的平均值和标准偏差估计值对于新数据可能比最小值和最大值更稳健。

您可以使用scikit-learn对象StandardScaler来标准化数据集。

以下是标准化每日最低温度数据集的示例。

# 标准化时间序列数据

from pandas import Series

from sklearn.preprocessing import StandardScaler

from math import sqrt

# 载入数据集并打印前5行

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

print(series.head())

# 准备要标准化的数据

values = series.values

values = values.reshape((len(values), 1))

# 训练标准化规则

scaler = StandardScaler()

scaler = scaler.fit(values)

print('Mean: %f, StandardDeviation: %f' % (scaler.mean_, sqrt(scaler.var_)))

# 标准化数据集并打印前5行

normalized = scaler.transform(values)

for i in range(5):

print(normalized[i])

# 逆变换并打印前 5 行

inversed = scaler.inverse_transform(normalized)

for i in range(5):

print(inversed[i])

运行示例打印数据集的前5行,打印相同的标准化值,然后以原始比例打印这些值。

我们可以看到估计的平均值和标准差分别是11.1和4.0。

Date

1981-01-01 20.7

1981-01-02 17.9

1981-01-03 18.8

1981-01-04 14.6

1981-01-05 15.8

Name: Temp, dtype: float64

Mean: 11.177753, StandardDeviation: 4.071279

[ 2.33888328]

[ 1.65113873]

[ 1.87219948]

[ 0.84058266]

[ 1.13533032]

[ 20.7]

[ 17.9]

[ 18.8]

[ 14.6]

[ 15.8]

概要

在本教程中,您了解了如何使用Python规范化和标准化时间序列数据。

具体来说,你了解到:

  • 一些机器学习算法在建模时要想更好的执行效率则需要重新调整数据。
  • 如何手动计算标准化和标准化所需的参数。
  • 如何使用Python中的scikit-learn来规范化和标准化时间序列数据。

你有任何关于时间序列数据缩放或关于这个职位的问题吗? 在评论中提出您的问题,我会尽力来回答。

本文的版权归 LPD6375 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

理工男的文科梦 —— LSTM深度学习写春联

笔者作为一名根正苗红的理工男,内心却常常有很多文艺青年才会有的想法,例如写首诗、做首词,甚至包括春节写副对联,空有一番愿望却胸无点墨。随着对机器学习和深度学习的...

52040
来自专栏鹅厂优文

AI从入门到放弃:CNN的导火索,用MLP做图像分类识别?

图片标题会显示Accuracy(准确度),准确度的计算公式是: 识别正确图片数/图片总数。

58690
来自专栏深度学习自然语言处理

基于汉语短文本对话的立场检测系统理论与实践

汉语短文本对话立场检测的主要任务就是通过以对话的一个人的立场为主要立场,而判断另一个人针对该人的回话的立场。立场包括支持,反对,中立三种立场。基于对话的立场检测...

18210
来自专栏AI2ML人工智能to机器学习

矩有四子

在讨论一些方法的几何意义之前需要理解一下线性代数的一个基础知识,就是矩阵和它代表的空间的含义。

13230
来自专栏机器之心

入门 | 关于神经网络:你需要知道这些

19320
来自专栏人工智能头条

cuDNN 5对RNN模型的性能优化

47750
来自专栏用户3246163的专栏

2.1 统计基础

主要用在线性回归的时候来估计b1 unbiasedness: 估计的残差是随机的 efficiency:对比其他估计样本残差最小 consistency:样本增...

28530
来自专栏IT派

入门 | 关于神经网络:你需要知道这些

我们简单回顾一下神经网络的发展历程,如果你想了解更多关于其发展历程的信息,请看这篇维基百科的文章(https://en.wikipedia.org/wiki/A...

11720
来自专栏ATYUN订阅号

【学术】在Google Sheet中创建深度神经网络

深度卷积神经网络并不像听起来的那样令人生畏。我将向你们展示我在Google Sheet中做的一个实现。复制它,你可以尝试一下,看看不同的因素如何影响模型的预测。...

31560
来自专栏机器之心

教程 | 仅需六步,从零实现机器学习算法!

从头开始写机器学习算法能够获得很多经验。当你最终完成时,你会惊喜万分,而且你明白这背后究竟发生了什么。

12720

扫码关注云+社区

领取腾讯云代金券