我有一个很长的pandas值,如果一个条件适用,我喜欢选择一个子集的单行(在我的例子中是‘DataFrame’的最小值)。 我有一个数据帧,它是这样开始的: time name_1 name_2 idx value
0 0 A B 0 0.927323
1 0 A B 1 0.417376
2 0 A B 2 0.167633
3 0 A B 3 0.458307
4 0 A B 4
我有一个df,像这样:
Name id precision
0 John 1 1
1 John 1 2
2 John 2 3
3 Marc 1 3
4 Tom 2 1
下面是生成它的代码:
pd.DataFrame([{'Name': 'John', 'id': 1, 'precision': 1},
{'Name': 'John', 'id': 1
我试着看上去是最高的和最低的
我的投入
id Place A Place B Place C
1 67 87 76
我的输出
id Place A Place B Place C Highest Lowest
1 67 87 76 Place B Place A
For Highest 'df['Highest'] = df.idxmax(axis=1)` works well, but For Lowest For Hi
我有下表: year pop1 pop2
0 0 100000 100000
1 1 999000 850000
2 2 860000 700000
3 3 770000 650000 我想为每个流行(pop1,pop2)找出流行最接近给定数字的年份,例如,流行最接近830000的年份。 有没有办法根据给定值在列中找到最接近的值? 我已经看过这篇文章(How do I find the closest values in a Pandas series to an input number?_,但看起来像这里,
我使用下面的代码读取多个csv文件,并将它们转换为熊猫df,然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火DataFrame。我想跳过转换到熊猫df部分,只是想有火花DataFrame。
文件路径
abfss://xxxxxx/abc/year=2021/month=1/dayofmonth=1/hour=1/*.csv
abfss://xxxxxx/abc/year=2021/month=1/dayofmonth=1/hour=2/*.csv
......
码
list = []
for month in range(1,3,1):
for day in range
我得到了一个Pandas DataFrame,其中有几行具有相同的ID,我想按ID对它们进行分组,并检查哪一行包含最少的NaN (或零)值,然后删除其余的行。
我希望我的最后一个DataFrame只包含每一个Id一行和最大信息量,而不迭代每一行。
在两个或多个行包含最少数量的NaN (或零)值的情况下,我将应用第二个尚未定义的布尔筛选器。会是这样的:
初始表:
ID A B C D E
1 4 56 NaN 890 aaa 907
2 4 NaN NaN 890