我创建了一个DatetimeIndex,并希望使用该索引对数据进行重新采样。当我这样做的时候,我得到了一个异常:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas-0.8.1-py2.7-linux-i686.egg/pandas/core/generic.py", line 188, in resample
limit=limit, b
我正在寻找一种大规模(数千万或数亿条数据记录)的resample time series数据的解决方案。Pandas resample()运行良好,直到达到大约10MIO数据记录,之后它实际上停止了工作,因为硬件没有足够的内存。我在大数据集上使用Pandas时遇到过几次这个问题。但是如果我只是在巨大的数据集上使用for循环,我就可以读取数据并使用它,即使它要慢得多。有没有人知道没有pandas的resample time series data的好解决方案
数据的来源是MySQL服务器,记录包含OHLC数据和时间戳。时间序列的频率是1分钟,重采样频率是5min,30min,1h,6h,1d,1
这是一个在xarray和pandas中重采样时间序列的MWE。10Min重采样在xarray中需要6.8秒,在pandas中需要0.003秒。有什么方法可以让x数组中的Pandas速度提高吗?熊猫的重采样似乎独立于这个时期,而x阵列则随着时间的推移而变化。
import numpy as np
import xarray as xr
import pandas as pd
import time
def make_ds(freq):
size = 100000
times = pd.date_range('2000-01-01', periods=size,
尝试为存储在netcdf中的栅格数据的每月时间序列提取包含区域区域的shapefile图层内的区域信息。 到目前为止,我只能提取每个shapefile在所有时间段的平均值(见下文)。但实际上我想要的是每个地区的月平均值。 最终的目标是将其放在一个pandas地理数据框架中,然后我可以将其与每个区域的一些属性数据合并。我不太习惯使用netcdfs,所以任何建议都会很有帮助!netcdf中的时间维度是'yyyy-mm-dd‘格式。 #import netcdf data
with rio.open('/MSLA_all_test.nc') as msla_nc:
pandas支持多种频率的重采样。要在DolphinDB中实现类似pandas的重采样,我可以使用group-by子句,其中group-by列是对时间列的函数调用。例如,要使用月份频率进行重采样,我可以编写如下SQL:
select count(*) from t group by month(myDate)
当涉及到周频率时,事情就有点不同了,因为DolphinDB没有像week这样的函数。此外,我希望在一周中的特定日期重新采样,例如,星期二。
请您告诉我,当我得到错误时,下列情况有什么问题:
ValueError:不能用方法或限制重新索引非唯一索引
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pandas_datareader as web
data= web.get_data_yahoo("BTC-USD",
start = "2015-01-01 ",
end = "202
我有以下数据:
Date Embedded_text Partei sentiment_prediction Sentiment
Date
2021-03-26 2021-03-26 AfD wirkt.\n\nSchluss mit dem #Gendergaga\nMDR... AfD 2 Neutral
2021-03-27 2021-03-27 Im Herbst wird gewählt.\nSchluss
这是我的密码:
import pandas as pd
data = pd.read_csv("temp.data",sep=';')
data['Date'] = pd.to_datetime(data['Date']+' '+data['Time'])
del data['Time']
data.rename(columns={'Date':'TimeStamp'}, inplace=True)
data = data.reset_index(
我有一个数据框,我需要每8小时计算一次臭氧的平均值。问题是,在我执行重采样之后的列(‘readable time')消失了,并且在重采样之后不能被引用。
import pandas as pd
data = pd.read_csv("o3_new.csv")
del data['latitude']
del data['longitude']
del data['altitude']
sensor_name = "o3"
data['readable time'] = pd.to_da
我正在处理一个聊天日志,我的数据由时间戳、用户名和消息组成。我的目标是为几个用户绘制每月的消息数量,这样我就可以在用户处于活动状态时进行比较。
问题是x轴.在那里,我想要日期取决于频率(在这种情况下,月份)。相反,分组数据的Multindex似乎是在那里输出的。此外,数据似乎是正确分组的,但每个月都有三个数据点。
我包括了一些代码来生成随机数据。(我正在使用Python3.2)
以下是当前的输出:
import numpy as np
import time
import datetime
import pandas as pd
import matplotlib.pyplot as p
当你想在python中根据时间戳对数据进行重采样时,pandas的重采样函数很容易使用。例如,从一个以秒为单位的时间戳的dataframe1到另一个重采样到10分钟的平均值。
df1_10m=df1.resample('10T', how='mean')
现在我需要在matlab中做同样的事情,但我没有找到一种明确的方法。
函数重采样似乎是另一回事。
我尝试了重塑,但我得到了错误。
function[Data_10mean]=resamp(table)
table.ts=datestr(table.ts); % format the time stamp
Tab
我试图使用Matlab中的'bootstrap‘重新采样(替换)我的数据库,如下所示:
D = load('Data.txt');
lead = D(:,1);
depth = D(:,2);
X = D(:,3);
Y = D(:,4);
%Bootstraping to resample 100 times
[resampling100,bootsam] = bootstrp(100,'corr',lead,depth);
%plottig the bootstraping result as histogram
hist(resampling1
我正在处理表示向量(幅度和方向)的时序数据。我想要我的数据,并使用describe函数作为how参数。
但是,describe方法使用标准平均值,我想使用一个特殊的函数来平均方向。因此,我在pandas.Series.describe()实现的基础上实现了我自己的describe方法
def directionAverage(x):
result = np.arctan2(np.mean(np.sin(x)), np.mean(np.cos(x)))
if result < 0:
result += 2*np.pi
return result
d
我有一个包含时间和扭矩数据的csv文件。https://pastebin.com/MAT2rG3U由于大小限制,此数据集被截断。 我试图找到数据的快速傅立叶变换,以找到振动的频率。 这是我的代码(这是我使用Fast Fourier Transform in Python的例子),它不会产生任何结果。我已经搜索了很多在线资源,但找不到我的错误 import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data = pd.read_csv('data.csv',index_col=0)
data