我已经读取了excel输入文件,并将其转换为pandas数据帧格式,如下所示。它有三列办公室编号、日小时数、日费率和两行数值[(101,8,60),102,8,60)输入: OFFICE NO DAY HOURS DAY RATES
101 8 60
102 8 60 我的最终输出在文本文件中只需要两列在一线办公室没有,白天的工作。第二行将需要两个划分的小时,费率列下的“白天工作”主列名称。输出: OFFICE NO DAY JOB
HOURS RATES
101 8
我想将列添加到Pandas多索引数据帧中,其中将包含对其他列执行的操作的结果。
我有一个和这个类似的数据:
first bar baz
second one two one two
A 5 2 9 2
B 6 4 7 6
C 5 4 5 1
现在,对于dataframe中的每个组,我想添加一个列“3”,它等于列“1”减去“2”:
first bar baz
second one two three one two three
A
我有一个程序,输出1-4个熊猫数据帧,每个数据帧的结构如下:
a b
time
2008 11.61 11.99
2009 12.54 10.66
2010 13.64 12.34
2011 14.02 13.20
在每种情况下,如果我添加年份,行可能会增加,如果添加城市,列可能会增加,但在四个数据格式中的每一个数据中,不同的数据库都会返回相同年份和相同城市的结果。
我正在尝试编写一个函数,该函数可以自动完成将所有数据帧组合在一起的步骤,并创建一个表示所有数据帧的大型图形。
To do it with 2 dataframes,
最近,我观察到熊猫的乘法速度更快。我在下面的示例中向您展示了这一点。在如此简单的操作上,这怎么可能呢?这怎么可能呢?pandas数据帧中的底层数据容器是numpy数组。
测量
我使用带形状(10k,10k)的数组/数据帧。
import numpy as np
import pandas as pd
a = np.random.randn(10000, 10000)
d = pd.DataFrame(a.copy())
a.shape
(10000, 10000)
d.shape
(10000, 10000)
%%timeit
d * d
53.2 ms ± 333 µs per loop
考虑一个简单的数据帧:
import numpy as np
import pandas as pd
x = pd.DataFrame(np.arange(10).reshape(5,2))
print(x)
0 1
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
我想创建一个具有以下形式的分层索引数据框架:
0 1
a b a b
0 0 NaN 1 NaN
1 2 NaN 3 NaN
2 4 NaN 5 NaN
3 6 NaN 7
我有一个数据帧,它的列如下所示: MultiIndex([('Longitude', 'Field1'),
('Latitude', 'Field1'),
('Name with Name Text', 'Field1'),
('Name with Name Text', 'Field2'),
('IsPresent', 'Field1')
我从一个Excel文件中获取了以下熊猫数据帧
我想使用Pandas通过将当前标题(前两行)转换为数据帧列来展平Excel表。这就是我想要达到的目标:
segment unit category sub_category value
seg1 kg cat01 sub_cat_1.1 1
seg2 kg cat01 sub_cat_1.1 2
seg1 kg cat01 sub_cat_1.2 3
seg2 kg cat01 sub_cat_1
假设我有一个数据帧,它可以表示为: pd.DataFrame(columns=['X', 'Y'],index=['A','B'])
X Y
A 1 2
B 3 4 然后,我想对每个单元格应用函数,以获得每个行的数据帧、具有列名和索引的单元格的值,如下所示: Col1 Col2 Value
1 X A 1
2 Y A 2
3 X B 3
4 Y B 4 我知道我可以循环它来得到结果,但我希望有一个更好的像
我做了一个数据帧聚合,我想添加一个新列,如果行中2020年有一个> 0的值,它将放入1,否则为0。 这是我的代码和dataframe的头 df['year'] = pd.DatetimeIndex(df['TxnDate']).year # add column year
df['client'] = df['Customer'].str.split(' ').str[:3].str.join(' ') # add colum with 3 first word
Datedebut = d
我正在用熊猫阅读一个excel文件。我想从原始数据帧创建多个数据帧。每个数据帧名都应该是第1行标题。此外,如何跳过每个事务之间的一列。
预期结果:
transaction_1:
name id available capacity completed all
transaction_2:
name id available capacity completed all
transaction_3:
name id available capacity completed all
我试过的是:
import pandas as pd
import pprint as pp
pd.option
根据下面的示例,我正在将数据帧输出到电子邮件的正文中。是否可以在列标签行的上方添加标题行或标题行?最好是一个单元格的行,数据帧的长度,包含一个字符串? import pandas as pd
import numpy as np
from IPython.core.display import display, HTML
dates = pd.date_range('20130101',periods=3)
df = pd.DataFrame(np.random.randn(3,4),index=dates,columns=list('ABCD'))
st