Pandas对行情数据的预处理

库里是过去抓取的行情数据,间隔6秒,每分钟8-10个数据不等,还有开盘前后的一些数据,用Pandas可以更加优雅地进行处理。

需要把当前时间设置为index

df=df.set_index('time') #设置时间为索引字段

但是还是字符串,需要改为datetime类型:

ii=[datetime.strptime(idx,'%Y-%m-%d %H:%M:%S') for idx in df['time']] #索引列
df['newc']=ii
df=df.set_index('newc')

这样就得到datetime类型的index了,要保留分钟的数据,有两个方法,重新采样或者分组。

重采样:

fz=df.resample('T')
pr=fz['price'].mean()
am=fz['amount'].max()

分组:

df=df.groupby(lambda x:x.minute).mean()

或者直接用字符串进行分组,同时对价格取平均值,对成交量取最大值:

df=df.groupby(lambda x:x[:16])
pr=df['price'].mean()
am=df['amount'].max()

对于分组/采样结果,还可以用ohlc方法,很酷:

对比起来,用时间索引重采样的方式,可能更加灵活。因为诸如1分钟、5分钟、10分钟、半小时等各种时间节点,可以快速表示无需复杂的代码。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习之tensorflow实战篇

Core-periphery decomposition--核心-外围模型R代码整理

SNA中:中心度及中心势诠释(不完整代码) Core-periphery decomposition--核心-外围模型R代码整理 本文是从网易博客搬家过来的,...

2763
来自专栏图形学与OpenGL

机械版CG 实验1 像素点的生成

注:本博客实验教程的配套教材为《计算机图形学》(徐文鹏编)已由机械工业出版社于2009年2月出版。

943
来自专栏腾讯AlloyTeam的专栏

png的故事:获取图片信息和像素内容

现在时富媒体时代,图片的重要性对于数十亿互联网用户来说不言而喻,图片本身就是像素点阵的合集,但是为了如何更快更好的存储图片而诞生了各种各样的图片格式:jpeg、...

1.7K0
来自专栏章鱼的慢慢技术路

层层递进——宽度优先搜索(BFS)

2414
来自专栏深度学习计算机视觉

A HierarchicalTest Case Prioritization Technique for Object Oriented Software

1、成员组成 (1)组长:张俊怡 (2)组员:孟令军 2、文献基本情况介绍 (1)文献名称:A HierarchicalTest Case Prioritiz...

3617
来自专栏QQ音乐技术团队的专栏

​关于 M4A 文件的随机访问

文章介绍了 M4A 文件的大概结构,详细解读了其中的 Sample Table Box,并结合图例,详细讲解了如何使用它来完成 M4A 文件的随机访问。

4360
来自专栏pydata

Matlab C混合编程

在MATLAB中可调用的C或Fortran语言程序称为MEX文件。MATLAB可以直接把MEX文件视为它的内建函数进行调用。MEX文件是动态链接的子例程,MAT...

1062
来自专栏专知

【干货】TensorFlow中那些鲜为人知却又极其实用的知识

TensorFlow的生态圈极其强大,覆盖了科研、工程中的各种流程,其中一些特别好用的模块和技巧可以使你的工作效率大幅度提升,也可以让你的产品变得非常稳定。本文...

1551
来自专栏企鹅号快讯

从图灵机开始

说到图灵机,我们首先要说说图灵这个人。笔者觉得我们这种搞计算机的人都应该知道并记得这个人。 图灵,1912年6月23日生于英国帕丁顿。是数学家、密码破译专家,当...

2148
来自专栏青玉伏案

算法与数据结构(六) 迪杰斯特拉算法的最短路径(Swift版)

上篇博客我们详细的介绍了两种经典的最小生成树的算法,本篇博客我们就来详细的讲一下最短路径的经典算法----迪杰斯特拉算法。首先我们先聊一下什么是最短路径,这个还...

2575

扫码关注云+社区

领取腾讯云代金券