python pandas的新手,需要删除重复的索引行,并根据一列的标志在重复行中只保留一行,示例如下: Index value 1 value2 flag
1 10 20 on
1 30 40 off
2 11 22 on
2 32 42 off
3 12 22 on
3 33 43 off 根据index和flag cloumn进行过滤后,输出应为: Index value 1 value2 flag
1 1
我正在使用pandas库
我有一个包含数百个数据部分重复项的大型数据库(一列或两列相同,但其中一列包含附加信息)。我希望合并重复的实例,同时保留具有最多信息的行。我只能弄清楚如何合并两个数据库,而不是一个单一数据库中的数据。
示例:
Col 1: Name, Col 2: Age, Col 3: Other, Col 4: Other, Col 5: Other
Row1 Aaron Miser, 32, Plumber, 4 Children, NaN
Row2 Aaron Miser, 32, NaN, NaN, NaN
Row3 Aaron Miser, 3
我测试了两种将重复的行删除到dataframe中的方法,但是它们没有获得相同的结果,我不明白为什么。
第一个代码:
file_df1 = open('df1.csv', 'r')
df1_list = []
for line in fila_df1:
new_line = line.rsplit(',')
df1_firstcolumn = new_line[0]
if df1_firstcolumn not in df1_list:
df1_list.append(df1_firstcolumn)
我有一个有NBA球员统计数据的pandas数据框,我想删除重复的球员行。有重复的,因为有些球员在2020-2021赛季在多支球队踢球,我想删除这些重复的东西。然而,对于这些在多个球队踢球的球员,还会有一个行,其中包含该球员在所有球队的组合统计数据和团队标签'TOT',这表示该球员在本赛季在两支或更多球队比赛的事实。当我删除重复的球员时,我希望与“TOT”团队的行保留下来,而所有其他重复的球员都消失了。我不确定如何指定要删除所有重复项,但将复制项保留在df‘’Team‘= 'TOT’的位置。
下面是我的数据帧的样子:
在本例中,我想删除球员'Jarrett All
我希望你能帮忙。
我有一个具有重复字符串值但不同的索引,也就是ID值的dataframe。我试图找到字符串与扭曲重复的索引/ID值,以便将第一个索引/ID值与重复的行索引/ID进行比较。
下面是输入数据的示例:
import pandas as pd
data = [[1, 'online delivery, and now offer dedicated learning platforms...'],
[7, 'verything is in a state of change. There ...'],
[52,
pandas drop_duplicates函数非常适合用来“唯一”一个数据帧。但是,要传递的关键字参数之一是take_last=True或take_last=False,而我希望删除列的子集上重复的所有行。这个是可能的吗?
A B C
0 foo 0 A
1 foo 1 A
2 foo 1 B
3 bar 1 A
例如,我想删除与列A和C匹配的行,因此应该删除第0行和第1行。
我有一个Pandas数据框,其中我看到了重复的行,尽管它们在技术上没有复制。这些值只是以不同的顺序排列。我正在尝试找出如何在不考虑数据顺序的情况下删除重复行。
下面是我的例子
ID1 Name1 ID2 Name2
1 Matt 2 John
2 John 1 Matt
3 Jeff 1 Matt
预期输出
ID1 Name1 ID2 Name2
1 Matt 2 John
1 Matt
如果我有数据
Index City Country State
0 Chicago US IL
1 Sacramento US CA
2 Sacramento US
3 Naperville US IL
我想为'City‘和'Country’找到具有重复值的行,但只删除‘State.Ie.Drop row#2’中没有条目的行。
使用Pandas来处理这个问题的最佳方法是什么?
如果一列中有重复,我对“整行删除”有问题。如果B栏有重复,我想删除整行。
我的桌子上有A,B,C,D列。如果我标记B列,我使用删除重复-它将删除只是重复从B栏,如何摆脱整行,如果有重复在B栏?
有什么建议吗?
真的谢谢
Example:
A B C D
car.name car.color car.price 250 000
car.value car.color car.speed 250 km/h
在这个例子中,我想删除第二行(B列