Pandas :如何删除特定数量的重复行？_如何删除pandas dataframe中的重复行？_重复pandas数据帧的特定行 - 腾讯云开发者社区

python、pandas、fuzzy-search、locality-sensitive-hash、record-linkage

如何在pandas中使用模糊匹配来检测重复行(高效) 如何找到一个列与所有其他列的重复项，而不是转换row_i toString()的巨大for循环，然后将其与所有其他列进行比较？

浏览 10提问于2016-09-14得票数 4

回答已采纳

2回答

随机丢弃重复

python、pandas

在Pandas中，我们可以使用dataframe.drop_duplicates()删除重复数据，默认情况下保留重复数据的第一行。如果是keep_last = True，则保留最后一行。我们如何保持随机行，并使用熊猫drop_duplicate删除重复行？

浏览 3提问于2014-04-04得票数 5

回答已采纳

1回答

使用Pandas -Exception导入数据表:索引(列0)具有重复值[nan]

io、pandas

我是pandas的新手，所以如果我忽略了一些显而易见的事情，请原谅我，但我似乎在前面的问题中找不到答案。我试图将一个表导入到Pandas中，该表有任意数量的空格作为分隔符。下面是数据的一个示例： *PRODUCT : Backscatter Ratio - 1064.0 nm ^ Altitude 2010/03/23 17:01:00 2010/03/23 17:03:00 ... 1.50 1 1

浏览 6提问于2012-06-12得票数 1

3回答

Python(pandas)：基于两列删除重复项，将行与标志保留在另一列中

python、pandas

python pandas的新手，需要删除重复的索引行，并根据一列的标志在重复行中只保留一行，示例如下： Index value 1 value2 flag 1 10 20 on 1 30 40 off 2 11 22 on 2 32 42 off 3 12 22 on 3 33 43 off 根据index和flag cloumn进行过滤后，输出应为： Index value 1 value2 flag 1 1

浏览 70提问于2019-05-18得票数 0

1回答

只删除两个索引中的一个

python、pandas、duplicates、series

给出一个由两个pandas.core.series.Series组成的pandas.core.series.Series： S1 = pd.concat([S,S]) e.g.:|index| value | | --- | -------- | |4707 | 25.408939| |13292| 24.288939| |38063| 22.766040| |39458|-16.478080| |39571|-15.085605| **|4707 | 25.408939|** |13292| 24.2889

浏览 1提问于2022-03-04得票数 1

回答已采纳

1回答

如何在python中有效地删除数据帧或csv文件中的所有重复项？

python、pandas

下面的表格包含在mytest.csv中，如下所示： timestamp val1 val2 user_id val3 val4 val5 val6 01/01/2011 1 100 3 5 100 3 5 01/02/2013 20 8 6 12 15 3 01/07/2012 19 57 10 9 6 6 01/11/2014 3100 49 6 12 15 3 21/12/

浏览 0提问于2014-04-04得票数 6

回答已采纳

1回答

mysql按列A搜索重复项，按条件删除其他列

mysql、duplicates、criteria

我有一个mysql数据库，其中包含一个表，其中包含以下列: PartCode、价格和数量。目标是编写一个查询，该查询将搜索具有重复'PartCode‘的行，然后通过Price和Quantity对它们进行比较，并删除具有较高'Price’值的行，但如果其中一个‘quantity’为0，则删除具有0数量的行。 A sample table would look like this: PartCode - Price - Quantity ABCD - 5 - 2 CDEF - 6 - 1 CDEF -

浏览 17提问于2017-08-30得票数 1

回答已采纳

2回答

将csv读入pandas数据帧，但避免NaN行

python-3.x、pandas、csv

我有一个csv文件，其中有73行数据和16列，我想读取它并将其传递给pandas数据帧，但当我这样做时 data_dataframe = pd.read_csv(csv_file, sep = ',') 我得到了3152行和22列，73行和16列的数据，其余的只有纯NaN值。如何告诉pandas读取有效的行和列数据，并避免所有这些额外的NaN数据？

浏览 43提问于2021-11-16得票数 0

回答已采纳

3回答

Python中的H2OFrame()正在向中添加额外的重复行？

python、python-3.x、pandas、h2o

当使用H2O ()函数将Pandas转换为h2o.H2OFrame帧时，会发生错误。正在H2o框架中创建其他行。当我研究这个问题时，新的行似乎是其他行的重复。根据数据大小的不同，添加的重复行数不同，但通常在2-10个左右。代码： train_h2o = h2o.H2OFrame(python_obj=train_df_complete) print(train_df_complete.shape[0]) print(train_h2o.nrow) 输出： 3871998 3872000 正如您在这里看到的，已经添加了两个额外的行。如果仔细研究，现在每个用户有2个用户有2行。也就是说，已经

浏览 7提问于2017-08-14得票数 7

1回答

sphinx搜索查询前20个按标题权重排序，下一个20个按标题ASC排序，无重复输出

mysql、sql、sphinx

如何通过sql命令在sphinx上选择前20行按标题权重排序和下20行按标题排序ASC (总共40个结果)在同一sql命令上，但不给出重复的标题输出。我尝试了这个sql命令，但所有标题结果都是通过WEIGHT()排序的。 $sql = "SELECT *,MAX(WEIGHT()) AS tpw FROM vids_tab WHERE MATCH('@title " . mysql_real_escape_string( 'fun | funny | today funny' ) . "') GROUP 5 BY title O

浏览 19提问于2017-03-16得票数 0

1回答

如何将行从-BEGIN头移除到-END头中，并在python中将剩余的数据作为新的csv文件获取。

python

所以现在我有了一个csv文件，我可以使用python访问它，而且我成功地删除了中间的行，但是我无法以新的csv的形式获得剩余的数据。我试过这个密码- import pandas as pd import csv df = pd.read_csv('/content/Final_Data.csv',error_bad_lines= False) df.head() data = df.drop(columns='-BEGIN HEADER-') print(data) with open('example.csv', 'w')

浏览 6提问于2022-10-14得票数 2

回答已采纳

3回答

如何有效地从DataFrame中删除重复行

pandas

我正在处理一个非常大的数据框架，并使用pandas进行分析。该数据框架的结构如下 import pandas as pd df = pd.read_csv("data.csv") df.head() Source Target Weight 0 0 25846 1 1 0 1916 1 2 25846 0 1 3 0 4748 1 4 0 16856 1 问题是，我想删除所有的“重复”。从这个意义上说，如果我已经有一个包

浏览 4提问于2016-03-08得票数 1

回答已采纳

1回答

Dask: DataFrame计算耗时太长

python、pandas、dask

我从一个大约50K行和5列的Pandas数据帧创建了一个Dask数据帧： ddf = dd.from_pandas(df, npartitions=32) 然后我将一堆列(~30)添加到dataframe中，并尝试将其转换回Pandas dataframe： DATA = ddf.compute(get = dask.multiprocessing.get) 我查看了文档，如果我没有指定num_workers，它将默认使用我的所有内核。我在一个64核的EC2实例上，上面的代码行已经花费了几分钟时间，还没有完成... 你知道如何提高速度吗?或者我做错了什么？谢谢!

浏览 1提问于2017-07-28得票数 4

2回答

根据列中的某些值选择行，然后删除重复项

python、pandas

我在Pandas中有一个数据集，其中有如下列： brand categories nike sandals nike sneakers adidas sneakers adidas sneakers puma boots puma boots fila sneakers 我想保持行与brands只包含“运动鞋”，并删除所有重复行。

浏览 2提问于2020-11-03得票数 0

回答已采纳

1回答

将计数添加到新列大熊猫python 3

python、python-3.x、pandas

我正在尝试删除重复的行，并使用pandas编写事件的计数。以下是我尝试过的内容： createModel['count'] = createModel.groupby(createModel.columns.tolist(),as_index=False).size() createModel.to_csv(r"test1.csv",index=False,header =True,sep="\t",encoding="utf-16") createModel.head(10) 但我错了：TypeError: incompatib

浏览 0提问于2018-07-09得票数 1

回答已采纳

3回答

当重复行的顺序不同时，如何在Pandas中删除重复行？

python、pandas、dataframe、duplicates

我有一个Pandas数据框，其中我看到了重复的行，尽管它们在技术上没有复制。这些值只是以不同的顺序排列。我正在尝试找出如何在不考虑数据顺序的情况下删除重复行。下面是我的例子 ID1 Name1 ID2 Name2 1 Matt 2 John 2 John 1 Matt 3 Jeff 1 Matt 预期输出 ID1 Name1 ID2 Name2 1 Matt 2 John 1 Matt

浏览 0提问于2020-05-18得票数 2

2回答

从拼图中删除数据会导致数据“增长”--为什么？

apache-spark、pyspark、parquet

最近，我们发现由于ETL中的一个问题，我们的parquets中有重复的行。我们启动了一个项目来删除重复的行(读取parquets、重复数据删除和写回)。令人惊讶的是，我们注意到这些镶嵌物实际上变大了！这怎么解释呢？有没有可能，由于数据量较小，某些压缩根本不起作用？或者，我们是否应该在重复数据删除逻辑中寻找错误(尽管不太可能)？

浏览 0提问于2018-05-10得票数 1

3回答

如何删除pandas数据帧中的重复项，但保留基于特定列值的行

python、pandas、dataframe、duplicates、drop

我有一个有NBA球员统计数据的pandas数据框，我想删除重复的球员行。有重复的，因为有些球员在2020-2021赛季在多支球队踢球，我想删除这些重复的东西。然而，对于这些在多个球队踢球的球员，还会有一个行，其中包含该球员在所有球队的组合统计数据和团队标签'TOT'，这表示该球员在本赛季在两支或更多球队比赛的事实。当我删除重复的球员时，我希望与“TOT”团队的行保留下来，而所有其他重复的球员都消失了。我不确定如何指定要删除所有重复项，但将复制项保留在df‘’Team‘= 'TOT’的位置。下面是我的数据帧的样子：在本例中，我想删除球员'Jarrett All

浏览 1提问于2021-02-02得票数 0

1回答

如果另一列中的值为null - Pandas，则根据2列删除重复项。

pandas

如果我有数据 Index City Country State 0 Chicago US IL 1 Sacramento US CA 2 Sacramento US 3 Naperville US IL 我想为'City‘和'Country’找到具有重复值的行，但只删除‘State.Ie.Drop row#2’中没有条目的行。使用Pandas来处理这个问题的最佳方法是什么？

浏览 2提问于2021-11-30得票数 0

回答已采纳

1回答

合并单个数据帧内的重复数据

python、pandas、jupyter-notebook

我正在使用pandas库我有一个包含数百个数据部分重复项的大型数据库(一列或两列相同，但其中一列包含附加信息)。我希望合并重复的实例，同时保留具有最多信息的行。我只能弄清楚如何合并两个数据库，而不是一个单一数据库中的数据。示例： Col 1: Name, Col 2: Age, Col 3: Other, Col 4: Other, Col 5: Other Row1 Aaron Miser, 32, Plumber, 4 Children, NaN Row2 Aaron Miser, 32, NaN, NaN, NaN Row3 Aaron Miser, 3

浏览 0提问于2019-02-06得票数 0

1回答

Poly/ML编程中无重复元素表的计数

ml、polyml

我被Poly/ML中的函数式编程练习卡住了：做一个''a list -> int类型的函数，以便它以一个‘’元素列表作为参数。该函数必须返回列表中元素的数量，而不计算重复项。我真的不知道如何解决这个问题。提前感谢您的帮助！

浏览 3提问于2020-06-29得票数 0

2回答

在Pandas中删除特定行

python、pandas

我尝试过pandas的drop方法，但我没有使用它。我在代码块中提到了我的特定行。我在“Name”列中遇到了我的行。如何使用python删除pandas中的特定行？例如：- 我的特定行是=> Name : Bertug等级:A年龄: 15 import pandas as pd , re , string dataFrame = pd.read_excel("C:\\Users\\Bertug\\Desktop\\example.xlsx") def vowelCount(s): chars = set("aeiouAEIOU") fo

浏览 1提问于2017-03-31得票数 17

回答已采纳

4回答

如何删除Pandas系列重复索引的多余副本？

python、pandas

我有一个具有重复索引的系列s： >>> s STK_ID RPT_Date 600809 20061231 demo_str 20070331 demo_str 20070630 demo_str 20070930 demo_str 20071231 demo_str 20060331 demo_str 20060630 demo_str 20060930 demo_str 20061231

浏览 1提问于2013-01-18得票数 16

回答已采纳

1回答

如何在使用drop_duplicates (Pandas DataFrame)时获得掉行？

python、pandas、duplicates、drop-duplicates

我使用pandas.DataFrame.drop_duplicates()删除所有列值相同的行的重复项，但是对于数据质量分析，我需要生成一个带有删除的重复行的DataFrame。如何识别要删除的行？我想到了比较原始的DF和没有重复的新的DF，并识别缺少的唯一索引，但是有更好的方法来做到这一点吗？示例 import pandas as pd data =[[1,'A'],[2,'B'],[3,'C'],[1,'A'],[1,'A']] df = pd.DataFrame(data,columns=['N

浏览 10提问于2020-07-06得票数 1

回答已采纳

2回答

是否有一种方法可以根据不可引用的列删除重复的行？

python、pandas、dataframe

我有一个熊猫dataframe df，其中有一个列z，其中填充了设置值。我想删除重复的行，当它们具有相同的z列值(它们是集合)时，其中2行被认为是彼此复制的版本。 import pandas as pd lnks = [ ( 'a' , 'b' , { 'a' , 'b' } ) , ( 'b' , 'c' , { 'b' , 'c' } ) , ( 'b' , 'a' , { 'a' , 'b' }

浏览 0提问于2019-03-02得票数 1

回答已采纳

2回答

Python Pandas Dataframe根据列值移除重复行

python、pandas

我有一个pandas dataframe，如果LE列是"AAA“，我会尝试删除重复的行。如果有一个"AAA“，但没有其他行具有相同的ID/名称，那么我想不去管这些行。我所拥有的 import pandas as pd df = pd.DataFrame({'ID': [111, 222, 222, 333, 333, 444, 444, 444, 555, 555, 555, 555], 'Name': ['David','Carl','Carl',

浏览 3提问于2020-08-20得票数 1

1回答

基于另一列的条件从熊猫数据帧中删除重复项

python、pandas、dataframe

假设我有以下DataFrame： Row | Temperature | Measurement A1 | 26.7 | 12 A1 | 25.7 | 13 A2 | 27.3 | 11 A2 | 28.3 | 12 A3 | 25.6 | 17 A3 | 23.4 | 14 ---------------------------- P3 | 25.7 |14 我希望删除与‘Row’列有关的重复行，并且只希望保留列中值最近于25的行。例如： Row | Temperature |

浏览 4提问于2021-02-11得票数 1

回答已采纳

3回答

删除某个列号后包含全零的所有行

python、pandas

在pandas dataframe中，如何删除某一列后面有零的所有行。例如 from pandas import DataFrame df = DataFrame({'a' : [0,1,1,0,0,0,0], 'b' : [0,1,-1, 1,0,0,0], 'c': [1,4,5,6,7,0,0]}).T df： 0 1 2 3 4 5 6 a 0 1 1 0 0 0 0 b 0 1 -1 1 0 0 0 c 1 4 5 6 7 0

浏览 2提问于2015-01-29得票数 1

1回答

新列显示唯一行的出现次数

python、pandas

我正在尝试如何使用Pandas添加一个新列，显示唯一行的出现次数，然后删除任何重复项。当我不使用熊猫的时候，我可以接近这个输出： sort <inputfile | uniq -c 或者通过excel添加一个显示countif或类似内容的新列。有没有人在潘达斯做过这件事，能帮上忙吗？

浏览 4提问于2015-06-06得票数 0

回答已采纳

1回答

如何删除大熊猫数据中的重复数据记录

python、pandas、dataframe、duplicates

嗨，亲爱的，我是学习蟒蛇和熊猫的新手。我想用Python和Pandas删除数据中包含重复数据的重复数据记录。在dataframe中，我有两个列"code“和"number”。有几个重复行对“代码”具有相同的值，每个行对应一个数字。我只希望保留一个代码，并保存最大的相应数目。例如："a“有三个值:7、5和4。我希望它只保留7，并删除其余的值，与其他代码相同。有人能帮忙吗？非常感谢

浏览 3提问于2020-06-17得票数 0

回答已采纳

1回答

如何删除重复的xAxis标签并在图表上显示所有值

javascript、arrays、chart.js

如何删除所有标签重复项 ? 如果我通过扩展运算符删除重复项 labelsNonUnique = [29.03,30.03,30.03,30.03,30.03,30.03,30.03,31.03,31.03,31.03,01.04,01.04,01.04,01.04,01.04,01.04,02.04]; labels = [...new Set(labelsNonUnique)]; 所有重复项都已删除，但图表上的值点也已删除 ? 如何在不删除点的情况下移除重复标注

浏览 29提问于2021-04-05得票数 0

回答已采纳

2回答

在pandas数据框中选择唯一的观测值

python、pandas

我有一个包含uniqueid列的pandas数据框。我想从基于此列的数据框中删除所有重复项，以便所有剩余的观测值都是唯一的。

浏览 0提问于2013-11-01得票数 7

回答已采纳

1回答

如何在Pandas中比较两个数据帧并删除数据帧中不匹配的行？

python-3.x

我是python (尤其是熊猫)的新手。我有两个数据帧df1和df2。df1有200行。df2有250行。索引值也包含重复项。 df1: ProcessID 248 436 500 500 另一个数据帧 ProcessID Day Time Status 248 Sun 23:26:51 completed 436 Sat 01:50:56 completed 500 Thu 14:18:21 completed 500 Wed 23:00:15

浏览 3提问于2018-04-08得票数 0

3回答

筛选出超过一定数量的NaN的行

python、pandas、dataframe、filter

在Pandas数据帧中，我想过滤掉所有超过2个NaN的行。本质上，我有4列，我只想保留那些至少有2列有限定值的行。有人能建议一下如何实现这一点吗？

浏览 10提问于2014-04-22得票数 9

回答已采纳

1回答

如何只保留重复行中的一条记录，且值基于另一列？

python-3.x、pandas、dataframe

我的pandas dataframe如下所示：现在您可以看到，除了最后一列Value之外，所有其他列都具有相同的ID和Order date，这表明这些行是重复的，我如何删除这些重复的行，并只保留一行具有highest value的行。注意：Dataframe非常大，有许多重复的IDs和Order Date，在图片中你只能看到一个ID和相应的Order Date的结果。

浏览 1提问于2021-11-03得票数 0

3回答

如果行上存在部分重复，则删除行

bash、scripting

我有一个包含400+行的文件，但其中一些行具有部分重复项。下面是一个简化的版本。 file.txt： A_12_23 A_12_34 B_12_23 B_12_34 A_1_34 A_23_34 B_1_12 B_1_23 这些字段以空格分隔，其中第一个下划线之前的字母是标识符，第一个下划线之后的值是它的值。部分重复是指A的一个字段在下划线后的值与B字段的值相同。对行进行排序，以便A字段始终在B字段之前。没有其他标识符。我想要做的是删除所有部分重复的行。 output.txt： A_1_34 A_23_34 B_1_12 B_1_23 我该怎么做呢？我知道如何删除一行中的完全重复项，方法是

浏览 15提问于2020-08-24得票数 0

回答已采纳

1回答

Pandas Styler - CSS达到限制

python、html、css、pandas、pandas-styles

我有一个网络服务器，显示一些格式的数据表。格式为某些单元格着色。表被存储为数据帧，并使用pandas样式器应用格式。问题是对于大约3000行的大型表格，一些单元格没有着色，特别是在表格末尾很远的地方。我以excel表格的形式下载了带样式的数据帧，颜色是正确的，所以我知道我的颜色函数是正确的。当我生成一个大约5000行的表时，我注意到样式在第4096行突然结束。我认为由于pandas生成样式函数的方式，web浏览器无法处理递归深度。因为它将所有标签放在一个CSS元素上，如下所示： #T_394319f6_5c20_11eb_832b_04ed338ce712row0_col6,#T_394

浏览 6提问于2021-01-22得票数 0

2回答

在某些列中具有相同值的2行之间删除行。

python、pandas、dataframe

如果是熊猫数据，我将如何删除在两个特定列上具有相同值的2行之间的所有行。在我的例子中，我有列x,y and id。如果一个x-y对出现两次在dataframe中，以删除这2之间的所有行，我想要这样做。示例： import pandas as pd df1 = pd.DataFrame({'x':[1,2,3,2,1,3,4], 'y':[1,2,3,4,3,3,4], 'id':[1,2,3,4,5,6,7]})

浏览 0提问于2018-11-03得票数 0

回答已采纳

3回答

熊猫在第一列合并

python、pandas、merge

我正在尝试合并两个pandas数据帧，它们在我试图合并的条目中有重复的行(这里是由对应于'a‘和’b‘的2组成的行)。因此，pandas采用重复行的笛卡尔乘积，如下所示： In [8]: df1 = pd.DataFrame({'a' : [1, 2, 2], 'b' : [2, 2, 2], 'c' : [3, 6, 6]}) In [9]: df2 = pd.DataFrame({'a' : [2, 2], 'b' : [2, 2], 'd' : [2, 5]})

浏览 8提问于2019-03-11得票数 1

3回答

如何根据一定的条件丢弃数据帧中的重复行？

python、pandas

我们现在的目标是删除重复的玩家行，但将具有最高计数的行保留在G列(游戏播放)中。我们可以使用什么代码来实现这一点？我在这里附加了一个指向Pandas输出图像的链接。

浏览 10提问于2020-02-05得票数 1

回答已采纳

3回答

如何使用Pandas DataFrame更新数据库表中的现有行？

python、pandas

我正在尝试查询MySql数据库表的一个子集，将结果提供给一个Pandas DataFrame，更改一些数据，然后将更新后的行写回到同一个表中。我的表大小约为1 1MM行，而我要修改的行数将相对较少(<50,000)，因此带回整个表并执行df.to_sql(tablename,engine, if_exists='replace')不是一个可行的选择。有没有一种简单的方法来更新已经被修改的行，而不是迭代DataFrame中的每一行？我知道这个项目，它试图模拟一个"upsert“工作流，但它似乎只完成了插入新的非重复行的任务，而不是更新现有行的一部分：以下是我试

浏览 45提问于2017-02-26得票数 14

回答已采纳

1回答

Python熊猫读取表单标签<index_1>:<val_1> <index_2>:<val_2>的数据

python、pandas、parsing、kaggle

例如，数据中的一行如下所示 -1 0:183.3575741549828 1:3.11164735151736 2:2.171277907851733 3:26.68849990272964 4:24.76677388937082 5:0.02710337995527495 之所以指定索引，是因为没有为其指定索引的属性假定为零。我试着用这句话： train = pd.read_csv('train.csv', header=None, delim_whitespace=True).values 它显示了以下错误： train =pd.read_csv(‘tra.csv’，h

浏览 3提问于2017-04-24得票数 0

2回答

如何从候选列表中识别包含最少不同单词的行？

python、regex、dataframe

我有一个单词列表和一个数据集。我想识别数据集中中至少有两个单词的行。我能够识别至少包含两个列表单词的行，但我的代码也有问题地标识了重复单个列表单词的行。这是我的密码： import pandas as pd data={'Name':['Redred','redblue','redgreen','blue']} df=pd.DataFrame(data) df['Good colours'] = (df['Name'].str.contains("(red.

浏览 14提问于2022-01-02得票数 -2

回答已采纳

2回答

如何在替换后添加列？

python、pandas、numpy

我有以下数据框架： import pandas as pd import numpy as np dic = { "ID": [1, 2, 3, 4, 5], "Age": [18, 20, 18, 30, 30], "Car": ["BMW", "Benz", "BMW", "porsche", "porsche"], "Salary": [1000, 2000, 3000, 1200, 4000] } dt =

浏览 1提问于2019-08-20得票数 1

回答已采纳

2回答

如何在两列中删除具有重复值对的行？

python、pandas

我目前有一个Pandas DataFrame，并且希望删除在两列中有重复对的行。下面是一个例子，展示了我的意思： col0 col1 col2 0 0 1 0 1 1 2 1 2 0 3 0 3 4 4 6 4 3 5 1 5 0 6 0 假设我想根据col0和col2上的值对删除重复项。正如您在这个玩具示例中所看到的，行0、2和5都有(0, 0)对的副本，我想删除重复的行，只保留一个行。有什么

浏览 4提问于2019-11-18得票数 1

回答已采纳

1回答

如何加快在数据框列中查找重复项的速度

python、pandas、numpy

我希望找到在dataframe列中出现重复值序列的索引。我希望结果是一个列表列表，其中每个子列表都是重复值索引的单个序列。我当前的代码可以工作，但相当慢(10000行数据帧中10%重复的apx 15毫秒)： import pandas as pd import numpy as np import time # Given a dataframe and column, return a list of lists where each sublist # contains indexes of the sequential duplicates def duplicate_ranges(

浏览 0提问于2017-03-03得票数 0

1回答

如何在不创建多个重复行的情况下合并pandas数据帧

python、pandas、dataframe

我在data_cords中有两个要合并的数据帧，我可以使用下面的代码行来合并，根据我想要的所有变量都存在于pandas df中，我得到了想要的结果。问题是我的方法创建了许多完全相同的重复行。为了获得我想要的最终产品，我使用了df = data_cords.drop_duplicates()，但是所有这些都是非常昂贵的内存，这是我在google colab上运行代码时的一个问题。有没有一种方法可以在不创建所有重复行的情况下进行合并？我在问题的末尾插入了每个数据帧的屏幕截图，以增加清晰度。如果这是不正确的格式，很抱歉，我是新人。 df data__0如下所示： df数据如下所示：

浏览 9提问于2021-02-17得票数 0

7回答

删除具有重复索引的pandas行

python、pandas、dataframe、duplicates

如何删除索引值重复的行？在下面的天气DataFrame中，有时科学家会返回并纠正观察结果--不是通过编辑错误的行，而是通过在文件的末尾附加一个重复的行。我正在从网络上读取一些自动化的天气数据(每5分钟进行一次观测，并将每个气象站的月度文件汇编成文件)。解析文件后，DataFrame如下所示： Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date

浏览 3提问于2012-10-24得票数 353

回答已采纳

2回答

如何检查pandas.Dataframe中的重复列？

python、python-3.x、pandas、csv、duplicates

我必须处理部分原始、部分提取的数据。我怀疑这两列是重复的。在SQL中，我可以这样做 SELECT col1, col2 FROM table where col1 != col2 但是我如何在pandas.Dataframe的Python中做类似的事情呢？更具体地说，我如何比较csv文件和/或Dataframe对象的两列，然后查看符合或不符合比较条件的值或行。

浏览 1提问于2018-10-13得票数 0

1回答

包含列表列( DataFrame )的Pandas DataFrame中的行副本(Python3)

python、python-3.x、pandas、dataframe

假设我有这个Pandas df A B 0 100 [2, 18, 20] 1 200 [3, 17] 2 200 [3, 17] ... 其中，列A为整数类型，列B为整数类型列表。假设我想数一下有多少重复的行。在这个3行的小例子中，有一个重复行。因此，df.duplicated().sum()应该为这个小示例输出1。但是，每当我执行命令时，它就会抛出一个错误： TypeError: unhashable type: 'list' 我如何理解为什么会发生这种情况，是因为行中的每个值都成为了隐藏字典中的一个键，并且一个值将

浏览 8提问于2022-08-15得票数 2