时间序列

最近更新时间:2019-08-22 20:30:33

提取时间序列的各项统计特征([2.0] TsFeatureExtract)

算法说明

时序特征抽取是一个转换器,能对包含时间序列的数据进行特征抽取,产生一系列新的特征。该转换器支持的特征包括:最大值、最小值、均值、方差、标准差、偏度、峰度、中位数、极差、序列各项的平方和、序列相邻两项之差的均值等等。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

自相关系数([2.0] ACF)

算法说明

自相关系数衡量 y(t)和 y(t-k)之间相关性。对于一个平稳时间序列,自相关系数(ACF)会快速的下降到接近0的水平,然而非平稳时间序列的自相关系数会下降的比较缓慢。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 滞后阶数:计算相距k个时间间隔的序列值之间的相关性。

偏自相关系数([2.0] PACF)

算法说明

偏自相关性是指去除 y(t-1)、y(t-2)、 … 、y(t-k+1)的影响之后,衡量 y(t)和 y(t-k)之间相关性。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 滞后阶数:计算相距 k 个时间间隔的序列值之间的相关性。
  • 是否包含截距:包含或者不包含。

差分([2.0] Differentiated)

算法说明

对于非平稳序列,我们可以通过差分法,将其转换为平稳序列。计算相邻观测值之间的差值,这种方法被称为差分法。差分可以通过去除时间序列中的一些变化特征来平稳化它的均值,并因此消除(或减小)时间序列的趋势和季节性。

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 差分阶数:即d值。
  • 是否反向

KPSS检验([2.0] KPSS Test)

算法说明

单位根检验是一种更客观的判定是否需要差分的方法。这个针对平稳性的统计假设检验被用于判断是否需要差分方法来让数据更平稳。
KPSS 检验原假设为数据是平稳的,我们要寻找能够证明原假设是错误的证据。因此,很小的 P 值(例如小于0.05)说明需要进行差分。
具体原理请参考 原始论文

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

      输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 常数和趋势选择:回归中的包含项,是否带常数项和/或趋势项。

迪基福勒检验([2.0] ADF Test)

算法说明

单位根检验是一种更客观的判定是否需要差分的方法。这个针对平稳性的统计假设检验被用于判断是否需要差分方法来让数据更平稳。
迪基-福勒检验(Dickey-Fuller test)也是单位根检验方法,它可以测试一个自回归模型是否存在单位根(unit root)。
具体原理请参考 原始论文

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 滞后阶数
  • 常数和趋势选择:回归中的包含项,是否带常数项和/或趋势项。

LB检验([2.0] LBTest)

算法说明

Ljung-Box test 是对 randomness 的检验,或者说是对时间序列是否存在滞后相关的一种统计检验。
它可以用于两方面的检验:

  • 纯随机性检验,p 值小于5%,序列为非白噪声
  • 用于检验某个时间段内的一系列观测值是不是随机的独立观测值。如果观测值并非彼此独立,一个观测值可能会在 i 个时间单位后与另一个观测值相关,形成一种称为自相关的关系。自相关可以削减基于时间的预测模型(例如时间序列图)的准确性,并导致数据的错误解释。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 滞后阶数:计算相距k个时间间隔的序列值之间的相关性。

差分整合移动平均自回归模型([2.0] ARIMA)

算法说明

许多非平稳序列差分后会显示出平稳序列的性质,这个非平稳序列为差分平稳序列。差分平稳序列使用差分整合移动平均自回归模型(ARIMA)进行拟合。
ARIMA 包含3个部分:AR、I、MA。

  • AR 表示 auto regression,即自回归模型。
  • I 表示 integration,即单整阶数,时间序列模型必须是平稳性序列才能建立计量模型,ARIMA 模型作为时间序列模型也不例外,因此首先要对时间序列进行单位根检验,如果是非平稳序列,就要通过差分来转化为平稳序列,经过几次差分转化为平稳序列,就称为几阶单整。
  • MA 表示 moving average,即移动平均模型。

可见,ARIMA 模型实际上是 AR 模型和 MA 模型的组合。p 为自回归模型滞后阶数,d 为时间序列单整阶数,q 为移动平均模型滞后阶数。当 p、d 为0时,ARIMA 模型退化为 MA 模型,当 q、d 为0时,ARIMA 模型退化为 AR 模型。仅当 d 为0时,ARIMA 模型退化为 ARMA 模型。

训练节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 自回归项数:p 值,默认为1。
    • 差分次数:d值,默认为0。
    • 滑动平均项数:q值,默认为1。
    • 优化器评价次数:默认为10000。
    • 迭代次数:默认为10000。
    • intercept:是否带截距,默认为 true。

预测节点

  • 输入

  • 输入数据路径:输入文件所在路径

  • 输入文件类型:格式包括以下两种:

    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 输出

  • 输出数据路径:输出文件所在路径

  • 输出数据格式:格式包括以下两种:

    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数

    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

自动差分整合移动平均自回归模型([2.0] AutoARIMA)

算法说明

自动差分整合移动平均自回归模型给定 maxP、maxD 和 maxQ,它通过搜索获取合适的 p、d 和 q 值,
来建立一个差分整合移动平均自回归模型。

训练节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 最大自回归项数:maxP 值,默认为2。
    • 最大差分次数:maxD值,默认为2。
    • 最大滑动平均项数:maxQ值,默认为2。
    • 优化器评价次数:默认为10000。
    • 迭代次数:默认为10000。
    • intercept:是否带截距,默认为 true。

预测节点

  • 输入

  • 输入数据路径:输入文件所在路径

  • 输入文件类型:格式包括以下两种:

    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 输出

  • 输出数据路径:输出文件所在路径

  • 输出数据格式:格式包括以下两种:

    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数

    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

指数加权移动平均法([2.0] EWMA)

算法说明

指数加权移动平均法(Exponentially Weighted Moving Average,EWMA)是一种常用的序列数据处理方式。在 t 时刻,根据实际的观测值可以求取 EWMA(t):EWMA(t) = aY(t) + (1-a)EWMA(t-1),t = 1,2,…..,n;其中,EWMA(t)表示 t 时刻的估计值;Y(t)表示 t 时刻的测量值;n 表示所观察的总的时间;a(0 < a < 1)表示对于历史测量值权重系数。之所以称之为指数加权,是因为加权系数a是以指数式递减的,即各指数随着时间而指数式递减。用 n 表示为 a = 2/( n + 1)。

输入

  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

      参数

      • 时间列:时间数据所在的列。
      • 时间序列数据列:时间序列数据所在的列。
      • 历史值的权重系数:默认0.2

广义自回归条件异方差模型([2.0] GARCH)

算法说明

自回归条件异方差模型(ARCH)模型的实质是使用残差平方序列的 q 阶移动平移拟合当期异方差函数值,由于移动平均模型具有自相关系数q阶截尾性,所以 ARCH 模型实际上只适用于异方差函数短期自相关系数。
但是在实践中,有些残差序列的异方差函数是具有长期自关性,这时使用 ARCH 模型拟合异方差函数,将会产生很高的移动平均阶数,增加参数估计的难度并最终影响ARCH模型的拟合精度。
为了修正个问题,提出了广义自回归条件异方差模型(GARCH), 该模型简记为 GARCH(p,q)。GARCH 模型实际上是在 ARCH 的基础上,增加考虑异方差函数的 p 阶自回归性而形成,它可以有效的拟合具有长期记忆性的异方差函数。ARCH 模型是 GARCH 模型的一个特例,p = 0的 GARCH(p,q)模型。
本平台支持 p = 1、q = 1 的广义自回归条件异方差模型。

训练节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。

预测节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 输出
  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

三次指数平滑模型([2.0] HoltWinters )

算法说明

移动平均模型在解决时间序列问题上简单有效,但它们的计算比较难,因为不能通过之前的计算结果推算出加权移动平均值。此外,移动平均法不能很好的处理数据集边缘的数据变化,也不能应用于现有数据集的范围之外。因此,移动平均法的预测效果相对较差。指数平滑法(exponential smoothing)是一种简单的计算方案,可以有效的避免上述问题。按照模型参数的不同,指数平滑的形式可以分为一次指数平滑法、二次指数平滑法、三次指数平滑法。其中一次指数平滑法针对没有趋势和季节性的序列,二次指数平滑法针对有趋势但是没有季节特性的时间序列,三次指数平滑法则可以预测具有趋势和季节性的时间序列。术语 Holt-Winter 指的就是三次指数平滑。三次指数平滑模型(HoltWinters)按照季节性分量的计算方式不同,可以分为累加式季节性分量和累乘式季节性分量。

训练节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 季节频率:e.g. 月度数据为12。
    • 优化器评价次数:默认为10000。
    • 迭代次数:默认为10000。
    • 模型类型:有累加式和累乘式两种,默认是累加式。

预测节点

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 输出
  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

BoxCox转换([2.0] BoxCoxTransformer)

BoxCox 转换通过 lambda 参数对数值特征列进行变换,将特征数据变换为服从正太分布的数据。

  • 输入
  • 输入数据路径:输入文件所在路径
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
    • 输入时间列
    • 输入时间序列数据列
  • 参数
    • 变换参数:数值为0时进行对数变换
    • 是否反向:正向/反向可供选择