pandas支持多种频率的重采样。要在DolphinDB中实现类似pandas的重采样,我可以使用group-by子句,其中group-by列是对时间列的函数调用。例如,要使用月份频率进行重采样,我可以编写如下SQL:
select count(*) from t group by month(myDate)
当涉及到周频率时,事情就有点不同了,因为DolphinDB没有像week这样的函数。此外,我希望在一周中的特定日期重新采样,例如,星期二。
我创建了一个DatetimeIndex,并希望使用该索引对数据进行重新采样。当我这样做的时候,我得到了一个异常:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas-0.8.1-py2.7-linux-i686.egg/pandas/core/generic.py", line 188, in resample
limit=limit, b
我有一个Pandasv1.0.3dataframe,其中索引是一个时间戳,一个列是一个数值。该指数为30分钟的固定时间间隔差。单列表示一个计数,我希望对其进行重采样,以便索引为2天间隔。
我似乎需要这样做:
df.index = pd.to_datetime(df.index)
df.resample('2D', on='column_name').sum()
但是,我得到了以下错误:TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instan
我有一个特定id的开始日期和结束日期(df_with_start_end),我尝试从另一个数据帧(df_dates)中找出具有相同id的其他日期在它们之间。应在新列中输入结果。
我的想法是使用唯一的ID迭代数据帧df_with_start_end,对于每个ID,我尝试分析在df_with_start_end的开始日期和结束日期内是否有来自df_dates的任何其他日期。
我的实现是这样的,但它不是这样工作的。
for k in df_with_start_end['ID']:
df_with_start_end[k]['FREE_PERIOD'] = d
我有一个csv文件,其中包含一个时间序列,其结构为:col1: date col2: value。csv文件的日期是从1月1日到4月30日。然后我有了第二个csv文件,不同之处在于日期是2月1日到5月31日。第二列中从2月1日到4月30日的值在第一个和第二个文件中相同。第三个csv文件(3月1日到6月30日)、第四个文件也存在同样的问题:相同的覆盖结构。我希望读取这些csv文件,但仅保留从1月1日到12月31日的唯一日期,并且值不重复。有没有一种快速处理Pandas数据帧的方法?
我知道这一定是一个非常基本的问题,但奇怪的是,我在网上读到的资源似乎不太清楚如何做以下工作:
如何在pandas中索引特定列
例如,在从csv导入数据之后,我有一个带有单个日期的熊猫Series对象,以及每个日期对应的美元金额。
现在,我想将日期按月分组(并将该月份的相应美元金额相加)。我计划创建一个数组,其中索引列是月份,下一列是该月份的美元金额之和。然后,我会拿出这个数组,并创建另一个熊猫系列对象。
我的问题是,我似乎不能调用当前熊猫系列对象中的特定列。
有什么帮助吗?
编辑后添加:
from pandas import Series
from matplotlib import pypl
我有timeseries数据,我希望识别每个周期的周期和持续时间。
日期时间索引没有频率(数据点之间没有固定的时间步长)
我尝试使用从statsmodels.tsa.seasonal中使用seasonal_decompose对进行分解,但是得到了下面的错误ValueError: You must specify a period or x must be a pandas object with a DatetimeIndex with a freq not set to None
我试着做散点图,当我试着做的时候,x轴显示了很多日期。有没有一种方法可以在散点图中显示的x轴上只放置几个日期或年份? import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import matplotlib.dates as mdates
plt.scatter(terremoto_sur['time'],terremoto_sur['mag'])
plt.title('Magnitud
我是spark的新手,我想知道这是否会改变内存消耗以及如何将任务分配给它的工作人员。请看下面这个最小的例子,让你能够理解我的要求。 # import thing for the pandas udf
import pyspark.sql.functions as F
import pyspark.sql.types as T
# for creating minimal example
import pandas as pd
import numpy as np
#create minimal example
df_minimal_example = pd.DataFrame({"
我有一个处理Excel文件的脚本。发送它的部门有一个生成它的系统,而我的脚本停止工作。
我突然得到以下代码行的错误Can only use .str accessor with string values, which use np.object_ dtype in pandas:
df['DATE'] = df['Date'].str.replace(r'[^a-zA-Z0-9\._/-]', '')
我检查了来自旧系统(dtype: object)的文件和来自新系统(dtype: datetime64ns)的文件中日期列的类型