前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【时空序列预测实战】风险时空预测?keras之ConvLSTM实战来搞定

【时空序列预测实战】风险时空预测?keras之ConvLSTM实战来搞定

作者头像
MeteoAI
发布2020-06-19 11:42:27
2.5K0
发布2020-06-19 11:42:27
举报
文章被收录于专栏:MeteoAIMeteoAI

作者 | Eric琨

学校 | 武汉大学信管

研究 | NLP、时空序列

出品 | AI蜗牛车

前言

毕设临近截止,故写一篇心得以供新手学习,理论在知乎上有很多介绍的不错的文章,这里强烈推荐微信公众号:AI蜗牛车,这位东南老哥写了时空预测系列文章,能够帮助了解时空领域模型的演变,同时也向他请教了一些训练技巧。 我的本科毕设大概是这样的:先计算某个区域的风险,计算得到一段时间的风险矩阵,这里用的是自己的模型去计算的,数据如何生成,本文不做赘述,主要讲解如果通过每个时刻下的矩阵数据去预测未来的矩阵。

1. 回顾理论基础

在ConvLSTM中,网络用于捕获数据集中的时空依赖性。ConvLSTM和FC-LSTM之间的区别在于,ConvLSTM将LSTM的前馈方法从Hadamard乘积变为卷积,即input-to-gate和gate-to-gate两个方向的运算均做卷积,也就是之前W和h点乘改为卷积(*)。ConvLSTM的主要公式如下所示:

\begin{array}{c} i_{t}=\sigma\left(W_{x i}^{*} x_{t}+W_{h i}^{*} h_{t-1}+b_{i}\right) \\ f_{t}=\sigma\left(W_{x f}^{*} x_{t}+W_{h f}^{*} h_{t-1}+b_{f}\right) \\ o_{t}=\sigma\left(W_{x o}^{*} x_{t}+W_{h o}^{*} h_{t-1}+b_{o}\right) \\ C_{t}=f_{t}^{\circ} C_{t-1}+i_{t}^{\circ} \tanh \left(W_{x c}^{*} x_{t}+W_{h c}^{*} h_{t-1}+b_{c}\right) \\ H_{t}=o_{t}^{\circ} \tanh \left(c_{t}\right) \end{array}

详细可参考:

【时空序列预测第二篇】Convolutional LSTM Network-paper reading

2. 官方keras案例

实战过的朋友应该了解,关于Convlstm,可参考的案例非常少,基本上就集中在keras的官方案例(电影帧预测——视频预测

  • [官方案例] https://keras.io/examples/conv_lstm/
  • [知乎解说] https://zhuanlan.zhihu.com/p/124106729

官方模型核心代码:

代码语言:javascript
复制
from keras.models import Sequential
from keras.layers.convolutional import Conv3D
from keras.layers.convolutional_recurrent import ConvLSTM2D
from keras.layers.normalization import BatchNormalization
import numpy as np
import pylab as plt
 
seq = Sequential()
seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   input_shape=(None, 40, 40, 1),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(Conv3D(filters=1, kernel_size=(3, 3, 3),
               activation='sigmoid',
               padding='same', data_format='channels_last'))
seq.compile(loss='binary_crossentropy', optimizer='adadelta')

模型结构可以如官方一样:用前20个预测后20个,这里先解释一下官方模型结构的维度:

(如已熟悉,请跳过)对于新手来说,看上去似乎很复杂,其实弄清楚后会发现不过如此,请耐心听我讲完:

先从第一个Convlstm说起,输入的是(None, 40, 40, 1),输出的维度(None,None,40,40,40),这里的输入维度(input_shape)其实是每个时刻下的输入,如下图:比如这里用20个预测后20个,那么整理的第一个样本就是0至19个矩阵,label(标签)就是20至39个矩阵,每一个矩阵维度为(40,40,1)最后的这个1为通道数,如果是图片,那就对应多通道了,那么整理的样本X就应该是(样本个数,20,40,40,1),对应标签Y就是(样本个数,20,40,40,1)这样每个样本和标签才能一一对应,由于reurn_sequencetrue,即每个时刻单元都有输出,也就是20个预测20个嘛,那么第一层的Convlstm输出的维度就是(None,None,40,40,40)这里第一个None是batchsize毫无疑问,第二个其实就是20,至于最后一个维度是40,和filter个数直接相关,(因为一个卷积核对样本做一次特征提取,40个就有40个特征提取)。

接下来N层Convlstm均如此,最后为啥要接一个Conv3d,很好解释,因为你的label维度是(样本个数,20,40,40,1),这里的最后维度还得回归到1啊,所以Conv3d的filter这才设置为了1,以此类推,如果你的一个数据是三通道的图像,这里filter自然就是3了,一定要和label维度对应即可。

ConvLSTM参数介绍

  • filters: 卷积核的数目
  • kernel_size: 卷积核大小(1乘1的state-to-state kernel size很难抓住时空移动的特征,所以效果差很多,所以更大的size更能够获取时空的联系)
  • strides: (1,1)为卷积的步长,即卷积核向右和向下一次移动几格,默认步长为1
  • padding: 补0,为“valid”或 “same”。若要保证卷积核提取特征后前后维度一致,那就“same”
  • data_format: 即红绿蓝三个通道(channel)是在前面还是在后面,channels_last (默认) (width, height, channel)或 channels_first (channel, width, height) 之一, 输入中维度的顺序
  • activation: 激活函数,即下图中的RELU层,为预定义的激活函数名,如果不指定该参数,将不会使用任何激活函数(即使用线性激活函数:a(x)=x)

3. 模型改造

不过我由于数据量比较少,我把模型结构改造成了20个预测1个(样本数较少的童鞋可以参考),在convlstm最后一个层的reurn_sequence参数改为flase、Conv3d改2d即可。 其实了解了reurn_sequence这个参数后,改造就顺理成章了,在最后一个Convlstm这里将reurn_sequence改为false,那么就只在最后一个单元有输出了,第二个None维度就没了,然后再把Conv3d改为2d即可,这样就要求整理数据集的时候,样本和标签分别整理成这样:(样本数,20,40,40,1) 和(样本数,40,40,1),也就是20个预测1个。

代码语言:javascript
复制
from keras.models import Sequential
from keras.layers.convolutional import Conv3D ,Conv2D
from keras.layers.convolutional_recurrent import ConvLSTM2D
from keras.layers.normalization import BatchNormalization
from keras_contrib.losses import DSSIMObjective

import numpy as np

seq = Sequential()
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   input_shape=(None, 60, 93, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())
 
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())
 
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   padding='same', return_sequences=False))
seq.add(BatchNormalization())
 
seq.add(Conv2D(filters=3, kernel_size=(3, 3),
               activation='sigmoid',
               padding='same', data_format='channels_last'))

seq.compile(loss= DSSIMObjective(kernel_sizesize=3), optimizer='adadelta')
seq.summary()

模型经验及调参

先看看结果图吧,随便抽一张示意一下,预测的点相对比较准确,但是模糊度还没解决掉,毕竟只训练了十几分钟,有这个效果也还算可以了:

整个模型看上去不算复杂,但是实际效果比较差,有以下几个要稍微注意的地方:

  • 1.矩阵数据是否过于稀疏,如果0太多,建议先转成图片再做训练,否则效果会奇差无比,原因可能是求梯度的时候网络出了问题,直接崩了。
  • 2.如果输入是图片张量,需要提前做好归一化,我用的简单处理,直接元素除255.0,显示的时候再乘回来即可,可能有一丢丢颜色误差,但是不太影响。
  • 3.预测图片出现模糊大概有以下几个原因: (1)网络结构不够优(继续调就完事了),往往这种情况下,得到的预测点也不会太准确。 (2)由于是多个时刻下的数据去预测一个,那么必然存在信息叠加(融合),这样导致的模糊是不可避免的,如果数据量很大,那么可以采用20帧预测20帧这样的结构,应该会有效减缓一点模糊程度。 (3)重要: 损失函数若使用MSE则会默认模糊,如果换成SSIM(结构相似性)则会明显改观(亲测有效) 在模糊处理方面,我也想尝试改进,但是还没有找到比较好的方式,蜗牛车老哥建议调小学习率,训练时间长一点,可以这样去尝试一下!反卷积也尝试了,但是效果不佳,后期准备使用TrajGRU来实战(预测解码模块采用了上采样层理论上应该会提高清晰度)。

模型调参的过程其实是最无聊也最艰辛的,无非就是改改层结构,多一层少一层,改一下filter、batchsize个数,时空预测这种图像的预测和别的领域有一点不同,文本的只要acc、f1-score上去了就行,所以可以用grid search来自动化调参,但是图像预测还必须得肉眼去看效果,否则结果真可能是千差万别,loss看上去已经很低了但是效果很差的情况比比皆是,尝试多换几种loss来实验,后面也还可以尝试自定义loss看效果,整个调参过程确实是不断试错的过程,两个字:"炼丹"!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MeteoAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 1. 回顾理论基础
  • 2. 官方keras案例
    • ConvLSTM参数介绍
    • 3. 模型改造
      • 模型经验及调参
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档