我创建了一个DatetimeIndex,并希望使用该索引对数据进行重新采样。当我这样做的时候,我得到了一个异常:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas-0.8.1-py2.7-linux-i686.egg/pandas/core/generic.py", line 188, in resample
limit=limit, b
我已经写了一个javascript文件
<!DOCTYPE html>
<html>
<body>
<canvas id="canvas" width=300 height=300>
<script >
var canvas=document.getElementById("canvas");
var ctx=canvas.getContext("2d");
var cw=canvas.width;
var ch=canvas.height
这是一个在xarray和pandas中重采样时间序列的MWE。10Min重采样在xarray中需要6.8秒,在pandas中需要0.003秒。有什么方法可以让x数组中的Pandas速度提高吗?熊猫的重采样似乎独立于这个时期,而x阵列则随着时间的推移而变化。
import numpy as np
import xarray as xr
import pandas as pd
import time
def make_ds(freq):
size = 100000
times = pd.date_range('2000-01-01', periods=size,
pandas支持多种频率的重采样。要在DolphinDB中实现类似pandas的重采样,我可以使用group-by子句,其中group-by列是对时间列的函数调用。例如,要使用月份频率进行重采样,我可以编写如下SQL:
select count(*) from t group by month(myDate)
当涉及到周频率时,事情就有点不同了,因为DolphinDB没有像week这样的函数。此外,我希望在一周中的特定日期重新采样,例如,星期二。
我正在寻找一种大规模(数千万或数亿条数据记录)的resample time series数据的解决方案。Pandas resample()运行良好,直到达到大约10MIO数据记录,之后它实际上停止了工作,因为硬件没有足够的内存。我在大数据集上使用Pandas时遇到过几次这个问题。但是如果我只是在巨大的数据集上使用for循环,我就可以读取数据并使用它,即使它要慢得多。有没有人知道没有pandas的resample time series data的好解决方案
数据的来源是MySQL服务器,记录包含OHLC数据和时间戳。时间序列的频率是1分钟,重采样频率是5min,30min,1h,6h,1d,1
这是我的密码:
import pandas as pd
data = pd.read_csv("temp.data",sep=';')
data['Date'] = pd.to_datetime(data['Date']+' '+data['Time'])
del data['Time']
data.rename(columns={'Date':'TimeStamp'}, inplace=True)
data = data.reset_index(
我已经用Python语言中的StatsModels创建了一个累积概率图,但是轴上有太多的刻度。
我希望只有0.1、10、50、90、99和99.9处的刻度线。有人知道怎么做吗?我尝试使用下面的代码,但它只给出了前n个刻度数,这使得它非常无用(见下图)。
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib.ticker as ticker
import statsmodels.api as sm
csv = pd.read_csv('cumPro
我有一个数据框,我需要每8小时计算一次臭氧的平均值。问题是,在我执行重采样之后的列(‘readable time')消失了,并且在重采样之后不能被引用。
import pandas as pd
data = pd.read_csv("o3_new.csv")
del data['latitude']
del data['longitude']
del data['altitude']
sensor_name = "o3"
data['readable time'] = pd.to_da
我正在处理一个聊天日志,我的数据由时间戳、用户名和消息组成。我的目标是为几个用户绘制每月的消息数量,这样我就可以在用户处于活动状态时进行比较。
问题是x轴.在那里,我想要日期取决于频率(在这种情况下,月份)。相反,分组数据的Multindex似乎是在那里输出的。此外,数据似乎是正确分组的,但每个月都有三个数据点。
我包括了一些代码来生成随机数据。(我正在使用Python3.2)
以下是当前的输出:
import numpy as np
import time
import datetime
import pandas as pd
import matplotlib.pyplot as p
我正在处理表示向量(幅度和方向)的时序数据。我想要我的数据,并使用describe函数作为how参数。
但是,describe方法使用标准平均值,我想使用一个特殊的函数来平均方向。因此,我在pandas.Series.describe()实现的基础上实现了我自己的describe方法
def directionAverage(x):
result = np.arctan2(np.mean(np.sin(x)), np.mean(np.cos(x)))
if result < 0:
result += 2*np.pi
return result
d
我有timeseries数据,我希望识别每个周期的周期和持续时间。
日期时间索引没有频率(数据点之间没有固定的时间步长)
我尝试使用从statsmodels.tsa.seasonal中使用seasonal_decompose对进行分解,但是得到了下面的错误ValueError: You must specify a period or x must be a pandas object with a DatetimeIndex with a freq not set to None
尝试为存储在netcdf中的栅格数据的每月时间序列提取包含区域区域的shapefile图层内的区域信息。 到目前为止,我只能提取每个shapefile在所有时间段的平均值(见下文)。但实际上我想要的是每个地区的月平均值。 最终的目标是将其放在一个pandas地理数据框架中,然后我可以将其与每个区域的一些属性数据合并。我不太习惯使用netcdfs,所以任何建议都会很有帮助!netcdf中的时间维度是'yyyy-mm-dd‘格式。 #import netcdf data
with rio.open('/MSLA_all_test.nc') as msla_nc: