首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
36 篇文章
1
数据分析大作战,SQL V.S. Python,来看看这些考题你都会吗 ⛵
2
数据科学手把手:碳中和下的二氧化碳排放分析 ⛵
3
面试现场!月薪3w+的这些数据挖掘SQL面试题你都掌握了吗? ⛵
4
员工离职困扰?来看AI如何解决,基于人力资源分析的 ML 模型构建全方案 ⛵
5
AI 音辨世界:艺术小白的我,靠这个AI模型,速识音乐流派选择音乐 ⛵
6
数据专家最常使用的 10 大类 Pandas 函数 ⛵
7
钻石价格预测的ML全流程!从模型构建调优道部署应用!⛵
8
掌握这9个单行代码技巧!你也能写出『高端』Python代码 ⛵
9
刘畊宏男孩女孩看过来!运动数据分析挖掘!⛵
10
二手车价格预测 | 构建AI模型并部署Web应用 ⛵
11
看看你离世界一流大厂有多远?3道Google最新SQL面试题 ⛵
12
客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵
13
再见 Excel,你好 Python Spreadsheets! ⛵
14
羡慕 Excel 的高级选择与文本框颜色呈现?Pandas 也可以拥有!! ⛵
15
2022了你还不会『低代码』?数据科学也能玩转Low-Code啦! ⛵
16
Pandas数据显示不全?快来了解这些设置技巧! ⛵
17
一键自动化数据分析!快来看看 2022 年最受欢迎的 Python 宝藏工具库! ⛵
18
羡慕实时数据看板?来看看Python的交互数据分析可视化工具!
19
自动化运维?看看Python怎样完成自动任务调度⛵
20
森林野火故事2.0:一眼看穿!使用 Panel 和 hvPlot 可视化 ⛵
21
异常值检测!最佳统计方法实践(代码实现)!⛵
22
大数据开发!Pandas转spark无痛指南!⛵
23
还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
24
业务数据分析最佳案例!旅游业数据分析!⛵
25
Pandas中你一定要掌握的时间序列相关高级功能 ⛵
26
求职指南!给数据开发的SQL面试准备路径!⛵
27
Python中内置数据库!SQLite使用指南! ⛵
28
私藏!资深数据专家SQL效率优化技巧 ⛵
29
Pandas太慢?快使用Vaex DataFrame,每秒数亿数据算起来 ⛵
30
高手系列!数据科学家私藏pandas高阶用法大全 ⛵
31
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵
32
数据科学家赚多少?基于pandasql和plotly的薪资分析与可视化 ⛵
33
深度解析数据清理和特征工程!5本面向数据科学家的顶级书籍推荐 ⛵
34
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
35
百倍加速IO读写!快使用Parquet和Feather格式!⛵
36
交互式仪表板!Python轻松完成!⛵

Pandas中你一定要掌握的时间序列相关高级功能 ⛵

本文讲解Pandas工具库几个核心函数,能高效处理时间序列:resample、shift、rolling。帮你得心应手处理时间序列数据!


💡 作者:韩信子@ShowMeAI 📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40 📘 本文地址:https://www.showmeai.tech/article-detail/389 📢 声明:版权所有,转载请联系平台与作者并注明出处 📢 收藏ShowMeAI查看更多精彩内容

Pandas 是大家都非常熟悉的数据分析与处理工具库,对于结构化的业务数据,它能很方便地进行各种数据分析和数据操作。但我们的数据中,经常会存在对应时间的字段,很多业务数据也是时间序组织,很多时候我们不可避免地需要和时间序列数据打交道。其实 Pandas 中有非常好的时间序列处理方法,但是因为使用并不特别多,很多基础教程也会略过这一部分。

在本篇内容中,ShowMeAI对 Pandas 中处理时间的核心函数方法进行讲解。相信大家学习过后,会在处理时间序列型数据时,更得心应手。

数据分析与处理的完整知识技能,大家可以参考ShowMeAI制作的工具库速查表和教程进行学习和快速使用。

📘数据科学工具库速查表 | Pandas 速查表

📘图解数据分析:从入门到精通系列教程

💡 时间序列

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。简单说来,时间序列是随着时间的推移记录某些取值,比如说商店一年的销售额(按照月份从1月到12月)。

💡 Pandas 时间序列处理

我们要了解的第一件事是如何在 Pandas 中创建一组日期。我们可以使用date_range()创建任意数量的日期,函数需要你提供起始时间、时间长度和时间间隔。

代码语言:python
复制
# 构建时长为7的时间序列
pd.date_range("2022-01-01", periods=7, freq='D')

# 输出
# DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04','2022-01-05', '2022-01-06', '2022-01-07'],               dtype='datetime64[ns]', freq='D')

注意到上面的频率可用freq来设置:最常见的是'W'每周,'D'是每天,'M'是月末,'MS'是月开始。

下面我们创建一个包含日期和销售额的时间序列数据,并将日期设置为索引。

代码语言:python
复制
# 设置随机种子,可以复现
np.random.seed(12)

# 构建数据集
df = pd.DataFrame({
 'date': pd.date_range("2022-01-01", periods=180, freq='D'),
 'sales': np.random.randint(1000, 10000, size=180)}) 
 
 # 设置索引
df = df.set_index('date')

注意,我们要方便地对时间序列进行处理,一个很重要的先序工作是将日期作为索引,我们前面已经完成这个工作了。

💦 重采样

Pandas 中很重要的一个核心功能是resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

方法的格式是:

代码语言:python
复制
DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind=None, loffset=None, limit=None, base=0)

核心的参数rule是字符串,表示采样的频度。如下代码,在resample后接的mean是表示按照月度求平均。

代码语言:python
复制
# Resample by month end date
df.resample(rule= 'M').mean()

按月取平均值后,将索引设置为每月结束日期,结果如下。

我们也可以按每周销售额绘制汇总数据。

代码语言:python
复制
# 采样绘图
df.resample('W').mean().plot(figsize=(15,5), title='Avg Weekly Sales');

上图可以看出,销量在3月和4月之间的销售额有所下降,而在 6 月中旬达到顶峰。

💦 平移

Pandas 中的shift功能,可以让字段向上或向下平移数据。这个平移数据的功能很容易帮助我们得到前一天或者后一天的数据,可以通过设置shift的参数来完成上周或者下周数据的平移。

代码语言:python
复制
# 原始数据的一份拷贝
df_shift = df.copy()

# 平移一天
df_shift['next_day_sales'] = df_shift.sales.shift(-1)

# 平移一周
df_shift['next_week_sales'] = df_shift.sales.shift(-7)

在时间序列问题中,我们经常要完成同比和环比数据,通过shift后的数据做差就很容易得到。

代码语言:python
复制
# 计算差值
df_shift['one_week_net'] = df_shift.sales - df_shift.sales.shift(-7)

💦 滑动平均

下一个核心功能是rolling滑动平均,它是做交易的朋友非常常用到的一个功能,rolling函数创建一个窗口来聚合数据。

代码语言:python
复制
# 长度为2天的窗口,求滑动平均
df.rolling(2).mean()

在下图中,我们可以看到第一个值是NaN,因为再往前没有数据了。对第2个点,它对数据集的前2行计算平均:$(6787 + 4325)/2 = 5556$。

滚动平均值非常适合表征趋势,滑动窗口越大,得到的结果曲线越平滑,最常用的是7天平均。

代码语言:python
复制
# 滑动平均绘图
df.sales.plot(figsize=(25,8), legend=True, linestyle='--', color='darkgray')
df.rolling(window=7).sales.mean().plot(legend=True, label='7 day average', linewidth=2)
df.rolling(30).sales.mean().plot(legend=True, label='30 day average', linewidth=3)
df.rolling(100).sales.mean().plot(legend=True, label='100 day average', linewidth=4)

💡 总结

Pandas在时间序列处理和分析中也非常有效,ShowMeAI在本篇内容中介绍的3个核心函数,是最常用的时间序列分析功能:

  • resample:将数据从每日频率转换为其他时间频率。
  • shift:字段上下平移数据以进行比较或计算。
  • rolling:创建滑动平均值,查看趋势。

参考资料

推荐阅读

下一篇
举报
领券