前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >90%冠亚军采用的时间序列建模策略

90%冠亚军采用的时间序列建模策略

作者头像
炼丹笔记
发布2021-12-02 15:47:58
6940
发布2021-12-02 15:47:58
举报
文章被收录于专栏:炼丹笔记炼丹笔记

作者:杰少,炼丹笔记嘉宾

时间序列模型训练的两种黄金策略

简 介

本篇文章,我们介绍Kaggle和国内时间序列相关的数据竞赛中,90%的冠亚军和金牌选手会选用的建模策略,基于滑动窗口的样本构建策略,一般有两种滑动建模训练的策略,但这两种的思路基本都基于下面这张图构建的数据集:

两种时间序列模型训练策略

假设我们需要预测未来N天每一天/小时的商店的销量/每个股票的价格,该如何处理呢?

这两种时间序列建模的策略是一样的,不同的是二者的训练方式,我们基于上图所示的滑动标签策略,得到我们的数据集合

  • 每次滚动一个单元(一天/一小时)作为标签;

01

单个单元训练

  • 基于未来第N天/小时的数据进行训练;

02

多个单元一起训练

  • 将未来所有的N天的数据放一起训练,未来区分不同的天数,我们将其用距离当前的时间作为标记将其区分开。

03

二者的比较

  • 单个单元训练的策略,需要训练多个模型,但是数据集也会变小,适合数据集较大的问题;
  • 多个单元一起训练的策略,只需要训练一个模型,但是数据集会变成之前的N倍,适合数据集不是非常大的情况;
  • 很多冠亚军的思路目前基本都是上面两种训练策略的融合。

代码

01

单个单元训练

代码语言:javascript
复制
temp_df = train_df[['id','d',TARGET]]

start_time = time.time()
for i in range(1,8):
    print('Shifting:', i)
    temp_df['lag_'+str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
     
for i in range(1,8):
    label = 'lag_'+str(i)
    single_cell_label = temp_df['lag_'+str(i)]
    model.train(features, single_cell_label)
 

02

多个单元一起训练

代码语言:javascript
复制
temp_df = train_df[['id','d',TARGET]]

start_time = time.time()
for i in range(1,8):
    print('Shifting:', i)
    temp_df['lag_'+str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
    
models = [] 
label = 'lag_'+str(i)
multi_cell_labels   = pd.concat([temp_df['lag_'+str(i)] for i in range(1,8)],axis=0,ignore_index =True)
 # i 表示第i个cell,用来区分不同的cell之间的训练预测,不然预测结果会一样
    
features_all = []
for i in range(1,8):
    features[i] = i
    features_all.append(features)
multi_cell_features = pd.concat(features_all,axis=0,ignore_index =True) 
model.train(multi_cell_features, multi_cell_labels) 

参考文献

  1. M5 - Lags features
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档