之前pandas小妙招中强烈安利的pandas函数resample最近坑我不浅,记录下来
一言以蔽之:它(nd,脏话)会自动补全中间缺的日期
背景是这样: 我想按下雨工作日和周末,不下雨工作日和周末,统计按15min集计的订单时变量,然后绘制这种时变图
于是筛选好四部分数据后,依次放入下面代码所示函数中进行集计
resample_data=order_data.resample('15T',on='start_time').agg({"order_id":'count'})resample_data['start_time_noday'] =resample_data['start_time'].apply(lambda x: x.strftime('%H:%M'))#改变日期格式result=resample_data.groupby(['start_time_noday'],as_index=False).agg({"order_id":'mean'})
这个过程当然很顺利,一切都很平静
但是令我百思不得其解的是为什么这样结果sum算出来的日均使用量比我直接总订单除以天数的结果不仅对不上,而且小很多呢?
以至于我开始在草稿纸上推算小学数学:难道先对每个时间段求平均再求和跟先对每个时间段求和再取平均不一样么。 推算了很多次后,明明一样啊,于是我开始了debug
发现:
理想中不下雨是124天,所以每个时间段是124个
现实中是306个???
难道计数出错了? 把集计前的数据导出来一看,wc,原来他(nd)把中间缺的日期一个个都给我补全了,楞是给我补了200多天......
•第一种是把4.3,4.5日中间的4.4日这种缺天的补全,订单量跟上0•第二种是把4月,7月中间的5月和6月也都补全,订单量跟上0
就这样由124变成了306天,对得上才怪呢
解决方法也很简单:
resample分组后再筛选数据,这样那些多余的数据就被筛掉了
tj大学最优化画展展品-2推荐阅读
•pandas小妙招•pandas之按类多行合并为一行•pandas使用的100个trick•一个插件让你告别谷歌学术镜像•基于conv-lstm方法预测共享单车需求
领取专属 10元无门槛券
私享最新 技术干货