我在DataFrames中有5个时间序列数据,每个数据都有一个不同的时间尺度。例如,data1从4/15 0:00到4/16 0:00,data2从9/16 06:30到7:00。所有这些数据都在不同的DataFrames中,我想用matplotlib绘制它们的图表。我想设置x勾标签5的编号,并将数据的日期放在最左边的x勾标签上。我尝试了下面的代码,但无法得到我想要的图表。
fig = plt.figure(figsize=(15, 3))
for i in range(1,6): # because I have 5 DataFrames in 'df_event_num
我是通过pyodbc 2数据访问导入的: df1和df2。
它们很大,我需要比较它们。
PS:它们的尺寸不一样。
3列大小的Dataframes:
我想做的事:
如果CODUSU列相等,那么df2Situa o= 'K‘
我所做的,但太慢了:
for i in range(0,len(df2)):
for k in range(0,len(df1)):
if df2.loc[i][0] == df1.loc[k][0]:
df2[i]["Situação"] = "K"
I还需要:
如果在df1CODUSU中的条目中
我正在使用iterrows()对一个使用时间戳作为索引的数据集进行计算。下面是一个例子:
>>> aapl.head()
Date Open High Low Close Volume Adj Close
1980-12-12 28.75 28.88 28.75 28.75 16751200 3.15
1980-12-15 27.38 27.38 27.25 27.25 6281600
我有一个问题,关于一个转变,我想增加一个数据熊猫。我有一个包含以下列的dataframe:
df.columns = Index(['S', 'HZ', 'Z', 'Demand'], dtype='object')
我想执行以下转换:
for s in range(S):
for t in range(HZ):
for z in range(Z):
df.loc[(df['S'] == s) & (df['HZ'] == t) &a
我有两种类似的数据
Dataframe 1:
ID classification
1 MISS
2 MISS
3 CORRECT
4 MISS
5 CORRECT
Dataframe 2:
ID classification
1 CORRECT
2 CORRECT
3 MISS
4 MISS
5 CORRECT
我希望每次得到数据集1和数据集2之间的分类列中的值不匹配的索引号。数据集具有相似的长度,其余的列也
下面是我的代码的一些上下文,以及下面的主要问题。即使用and替换&也不起作用
df['in_uptrend'] = 'N/A'
for current in range(1, len(df.index)):
previous = current - 1
...
#MAIN ISSUE
if df['short_ema'][current] < df['long_ema'][current] and df['close'][current] < df['shor
我试着在每个酒吧的顶部贴上“no”这个标签的频率,但没能做到。尝试了以前的问题中已经问过的各种问题,但都能帮助我。
数据:
A B C D
1 yes no no
2 no no no
3 yes no no
4 no no yes
5 yes yes yes
6 yes yes no
7 no yes no
代码:
data_new = df.loc[:,'B':].eq('yes').sum().reset_index(name='counts')
sns.barplot(x=
我有两个数据帧,它们具有相同的列名和索引名,每个单元格中都包含列表,如下所示: df1
A B
c [1,2] [2,5]
d [3,5] [4,1]
df2
A B
c [2,3] [4,5]
d [2,3] [5,3] 我希望只有一个数据帧,如下所示: df_1&2
A B
c [1,2,2,3] [2,5,4,5]
d [3,5,2,3] [4,1,5,3] 有什么建议吗? 另一件事;如何仅在索引重复的地方连接数据帧,并跳过唯一的索引: df1
A B
c [1,2] [2,
我有两个dataframe,比如df1和df2,它们都很大,有一个million+行和1000个列。现在,df1有一个列,比如X,其中包含字符(如下所示)。df2有900+列,每个列都需要基于df1进行更改。
df1:
Index ColX ColY
100 C R
101 T Z
102 A Y
... .. ..
df2:
Index ColA ColB ColC ColD ... ...
100 0.033 0.10 0.22 1.22 ... ...
101 1
这是为元组创建DataFrame的正确方式吗?(假设元组是在代码片段内部创建的)
import pandas as pd
import numpy as np
import random
row = ['a','b','c']
col = ['A','B','C','D']
# use numpy for creating a ZEROS matrix
st = np.zeros((len(row),len(col)))
df2 = pd.DataFrame(st, index
我的python代码生成了一个pandas数据帧,如下所示: enter image description here 我需要将其转换为另一种格式以实现以下目的:循环遍历数据帧中的每一行,并输出与表中的行一样多的数据帧。每个dataframe都应该有一个额外的列: timestamp,并且命名为"Type“列中的值。举个例子,我会有 enter image description here 我正在为从哪里开始而苦苦挣扎-我希望这里有人能给我一些建议?
我需要从我的时间序列中创建一个数据集,其中包含由滚动的重叠窗口组成的样本。也就是说,以特定的窗口大小和特定的步长拆分我的数据帧。
如何使用Pandas做到这一点?我看到有一个滚动窗口,但它用于对窗口中的值执行一些聚合(例如,计算滚动平均值)。我只对隔离这些重叠的窗口感兴趣。该怎么做呢?
因此输出将是数据帧,如下所示:
1, a
2, b
3, c
4, d
5, e
6, f
7, g
对于窗口大小3和步骤2,输出将是:
1, a
2, b
3, c
3, c
4, d
5, e
5, e
6, f
7, g
为了清楚起见,我知道如何为此编写一个函数,只是想检查一下Pandas中是否已经有
如果值的数据类型为int,则尝试从dataframe中删除行
这是密码:-
dfd={'a':1,'b':'a','c':56,'d':'ok'}
dataframes=pd.DataFrame(dfd.items())
#if value is integer drop
for line in dataframes.index:
if(type(dataframes['value'][line])==int):
dataframes.drop(data
我试图从玉米价格清单(按日期计算的指数)中随机生成50个连续30天周期的样本。
到目前为止,我已经在第一行得到了“随机选择50天”。对于第二行,我真正想要的是一个数据数组,每个数组包含从样本日期开始的30天。目前,它只是返回当天的价格。
samples=np.random.choice(corn[:'1981'].index,50)
corn['Open'][samples] #line I need to fix
最干净的方法是什么?