目标:计算原告和被告的数量,但不计算对抗被告或对抗原告的数量。不要计算NaNs。
假设大约200行和最多100列的名称与下面的示例类似。
数据:
cl_parties_1_name cl_parties_1_party_types_0_name cl_parties_1_party_types_10_name cl_parties_1_party_types_12_name cl_parties_1_party_types_1_name cl_parties_1_party_types_2_name
0 Jason Boyd NaN Counter Defendant NaN Plaintiff NaN
1 Roberto Santana Plaintiff NaN NaN NaN Counter Defendant
2 Raymond Satterfield Counter Defendant NaN NaN Plaintiff NaN
所需输出:
Plaintiffs = 3
Defendants = 0
背景:我有一个乱七八糟的嵌套JSON,它是从API分页交付的。我取消了它的嵌套,并将页面附加到一起。
这就只剩下100行和可能的几十列了。
编辑:我知道关于Serieses已经被问过几次了,但我找不到整个Dataframe,也找不到如何以一种半有效的方式在所有列上做到这一点。我需要查看大约10,000个~100x~200个DataFrames。
发布于 2019-02-22 05:57:17
您可以检查每个单元格中的确切字符串,并在轴0和1上求和。
df.eq('Plaintiff').sum().sum()
使用Numpy sum会更有效率,
np.sum(df.eq('Plaintiff').values)
3
np.sum(df.eq('Defendants').values)
3
https://stackoverflow.com/questions/54816688
复制相似问题