我有一个由不同数据类型的45个变量组成的pandas数据框架,我正在使用'dython.nominal‘包来创建每个变量之间的关联矩阵。
然后我想:
答:子集我的数据帧(按地理位置过滤),并在该子集上计算关联矩阵,然后
B:使用在步骤A中创建的数据帧中的目标变量的列,创建第二个pandas数据帧并添加到第二个pandas数据帧中。
然后,得到的数据帧将是一个相关性矩阵,其中列索引是地理位置,行索引是其他44个变量。
到目前为止,我拥有的代码是:
import pandas as pd
from dython.nominal import compute_associations
t
我有一个关于根据other列的总和创建pandas数据帧的问题。
例如,我有这样的数据帧
Country | Accident
England Car
England Car
England Car
USA Car
USA Bike
USA Plane
Germany Car
Thailand Plane
我想制作另一个基于国家/地区的所有事故总和的数据帧。我们将忽略事故的类型,而根据
我想要做的是按列A分组,然后取前两行的和,然后将该值指定为新列。示例如下: DF: ColA ColB
AA 2
AA 1
AA 5
AA 3
BB 9
BB 3
BB 2
BB 12
CC 0
CC 10
CC 5
CC 3 所需的DF: ColA ColB NewCol
AA 2 3
AA 1 3
AA 5 3
AA 3 3
BB
我有以下数据帧
我想添加两列“季度期间的统计总数”( "stat“的总值,没有应用参数分解)和”季度总数的百分比“--这将显示比例是如何随着时间的推移而变化的,并构建一个总和为100%的堆叠图
不幸的是,我在用"pandas方式“计算”季度统计总数“时遇到了麻烦。我最终逐个单元格地迭代数据帧,这感觉像是一个次优解,然后将一列除以另一列,得到%
for elements in df.index:
df.ix[elements,3] = df[df['period']==df.ix[elements,0]]['stat'].su
我有一个数据帧,看起来像这样:
Population2010
State County
AL Baldwin 90332
Douglas 92082
Rolling 52000
CA Orange 3879602
San Diego 4364594
Los Angeles 12123562
CO Boulder 161818
Denver 73772
假设我有一个数据帧,它看起来像这样:
A B C
X U 500
X S 300
X T 200
Y F 20
Y G 980
Z L 400
我想在列A中使用特定值,因此{X,Y,Y},并基于这些值,我想获取行C的总和,并将其输出到新的数据帧中。我的新数据帧应该像这样
A B
X 1000
Y 1000
Z 400
它本质上是将列A中的值按名称分组,从A中的每个值中获取C的总和,并使用列C中的合计创建一个新的数据帧,其名称在A列中指定。
我需要它自己获取这些值,因为想象一下我的数据帧在A列有200行和80个不同的值。
我有一个熊猫数据帧,看起来像这样:
Country Sold
Japan 3432
Japan 4364
Korea 2231
India 1130
India 2342
USA 4333
USA 2356
USA 3423
我使用了下面的代码,并获得了"sold“列的总和
df1= df.groupby(df['Country'])
df2 = df1.sum()
我想问一下如何计算“售出”一栏总和的百分比。
我所要做的就是遍历DataFrame,并使用pandas group by计算唯一值的数量。我也对数据帧进行了排序,但没有用。 我已经尝试了15种不同的方法,并阅读了我能找到的每一个问题/回复线程,但我不知道为什么它不起作用。 创建DF的代码: #list of queries is literally a python list of queries in no specified #order
user_queries = pd.DataFrame(list_of_queries)
user_queries = user_queries.rename(index=str, colum
我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而,我得到了以下error.But,我想我必须输入与lines.How数量一样多的数据,我可以在我想要的行和列中输入信息吗?如果不输入数据,如何创建列? import pandas as pd
kd = pd.DataFrame(data)
insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True )
print(kd) 错误: ValueError: Length of values (4) does not match length o
我有一个包含4列的pandas数据帧- A、B、C、D和E。我想按A列创建组,然后找到B列和C列的最大值,然后用D中的相应值填充E,如下面的示例所示。 我的预期输出: column A column B column C column D Column E
AA 1 a 12 15
AA 2 d 13 15
AA 3 b 14 15
AA