我有一些随机的每小时时间序列数据(让我们编造一些),我如何为每日最大值重新采样,以及为记录的每日最大值所在的小时创建单独的df列?
import pandas as pd
import numpy as np
from numpy.random import randint
import os
np.random.seed(10) # added for reproductibility
下面频率的含义是什么;当我将我的xts对象转换成ts对象并尝试打印ts对象时,我得到了下面的信息。我的数据是每小时的数据。但我不能理解这个低于频率是如何计算的。我希望确保我的ts对象将我的数据视为每小时的数据。
Time Series:
Start = 1
End = 15548401
Frequency = 0.000277777777777778 (how this is equivalent to hourly frequency?)
因此,我的数据帧最初如下所示:
y
1484337600 19.22819
14843
下面的代码生成了下面的图形:
from pandas import *
from ggplot import *
plot = ggplot(data, aes('x','y')) \ #from dataframe 'data', columns x and y
+ geom_bar(stat='bar', fill='blue') + ggtitle('Graph of X and Y') \
+scale_x_continuous(name="X-Axis", br
所以我有一个pandas数据帧,它每10分钟接收一次输入/输出接口流量。我想将这两个时间序列聚合到每小时一次的存储桶中进行分析。看似简单的事情实际上对我来说却是相当具有挑战性的!只需要把桶放到每小时的垃圾桶里
times = list()
ins = list()
outs = list()
for row in results['results']:
times.append(row['DateTime'])
ins.append(row['Intraffic'])
outs.append(row['Outtr
基本上我有一个带有名称、CustomerID、PurchaseDateTime列的SQL表。每小时我都有一个模型,它必须基于python中的这三列运行,它应该获取前一个小时的数据。
在python中,我用来获取前一小时数据的select脚本如下所示,它将存储在Pandas dataframe中并用于模型。
def CustomerData():
sql = "SELECT Name, CustomerID, PurchaseDateTime FROM XYZ table WHERE (PurchaseDateTime between '' and '
我想表示一个日程表,最初作为CSV文件提供,作为Pandas DataFrame。明细表中每行的关键字是一天中的每小时范围。范围不重叠。例如:
00:00, 01:00, some data
01:00, 03:00, some more data
03:00, 04:30, some other data
如何创建一个具有表示开始到结束小时范围的一级索引的数据框?
当我写这个问题的时候,我想出了一个实现。我决定仍然发布它,因为样式是相对较新的,并且还没有太多的问题,所以我希望它可以被证明对其他人有用。我希望不会得到任何反对票,并将很高兴接受别人的实现。我在meta和中通读了,所以我希望我是清楚的。如果需要,我可以在下面提供我的实现。
我有一个按日均值分组的每小时时间序列。如果每小时数据中的某个值满足某个阈值,我希望突出显示分组数据中的单元格。
例如,如果我的日平均值是1,阈值是values < -1,我想突出显示每小时值小于-1的日平均值。
我的每小时数据:
import pandas as pd
import numpy as np
from d
假设我想每小时运行一次任务,但是在一小时内的不同时间运行一次。它不一定是真正随机的;例如,我只是不想在每个小时的顶部做它。我只想每小时做一次。
这就消除了几种明显的方法,比如在30到90分钟之间随机睡一段时间,然后再睡一次。任务有可能(也很有可能)连续运行几次,睡眠时间略高于30分钟。
我正在考虑的方法看起来像这样:每小时,散列该小时的Unix时间戳,并将结果修改为3600。将结果添加到小时的Unix时间戳中,这就是任务应该运行的时刻。在伪代码中:
while now = clock.tick; do
// now = a unix timestamp
hour = now - now
我正在处理每小时的时间序列(日期,时间(hr),P),并试图计算每个小时的每日总‘金额’的比例。我知道我可以使用Pandas‘resample('D',how=' sum ')来计算P (DailyP)的每日总和,但在相同的步骤中,我想使用每日P来计算每个小时的每日P的比例(因此,P/DailyP),从而得到每小时的时间序列(即,与原始频率相同的频率)。我不确定这是否可以被称为熊猫术语中的“重采样”。这可能从我的术语使用中很明显,但我在Python或编程方面是一个绝对的新手。如果有人能提出一个这样做的方法,我将非常感激。谢谢!
我创建了一个DatetimeIndex,并希望使用该索引对数据进行重新采样。当我这样做的时候,我得到了一个异常:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas-0.8.1-py2.7-linux-i686.egg/pandas/core/generic.py", line 188, in resample
limit=limit, b