删除pandas中100%匹配的重复项_Pandas删除行中的重复项_根据pandas中的条件删除重复项 - 腾讯云开发者社区

python、pandas

我们现在的目标是删除重复的玩家行，但将具有最高计数的行保留在G列(游戏播放)中。我们可以使用什么代码来实现这一点？我在这里附加了一个指向Pandas输出图像的链接。

浏览 10提问于2020-02-05得票数 1

回答已采纳

1回答

Pandas Dataframe丢弃记录及其副本

python-3.x

我希望删除基于列的pandas Dataframe中具有重复项及其重复项的记录

浏览 18提问于2019-11-14得票数 0

回答已采纳

1回答

给出一个由两个pandas.core.series.Series组成的pandas.core.series.Series： S1 = pd.concat([S,S]) e.g.:|index| value | | --- | -------- | |4707 | 25.408939| |13292| 24.288939| |38063| 22.766040| |39458|-16.478080| |39571|-15.085605| **|4707 | 25.408939|** |13292| 24.2889

浏览 1提问于2022-03-04得票数 1

回答已采纳

1回答

Excel -如果表A1:A 100包含A 101:A 200的值，则删除行

vba、excel、ms-office、office365

我必须承认，我对于卓越和这个社会来说是相当新的。但是，如果下面的值与上面的值匹配，我确实尝试编写一个可以管理的makro来删除特定范围内的行。(例如，A1:A 100，如果它匹配A 101:A 200中的值列表)，因为“删除重复”工具似乎不起作用。也许你们可以给我一个很好的答案/宏代码，这样可以完成这种动作。你好，valerius21

浏览 4提问于2016-03-04得票数 0

回答已采纳

1回答

如何在python中有效地删除数据帧或csv文件中的所有重复项？

python、pandas

下面的表格包含在mytest.csv中，如下所示： timestamp val1 val2 user_id val3 val4 val5 val6 01/01/2011 1 100 3 5 100 3 5 01/02/2013 20 8 6 12 15 3 01/07/2012 19 57 10 9 6 6 01/11/2014 3100 49 6 12 15 3 21/12/

浏览 0提问于2014-04-04得票数 6

回答已采纳

1回答

熊猫删除重复项不会丢弃最后一个重复项

python、pandas、dataframe、csv、duplicates

设置keep=False应该会删除所有重复项，但如果我运行函数is，仍会返回前一行的重复项 def date_to_csv(): import pandas as pd from random import randint df = pd.read_csv("test.csv") df = df.append({'Date': datetime.date.today(), 'Price': randint(1,100)}, ignore_index=True) result_df = df.drop_duplica

浏览 28提问于2021-06-26得票数 0

回答已采纳

3回答

Python模糊匹配(FuzzyWuzzy) -仅保留最佳匹配

python、string-matching、fuzzy-search、fuzzywuzzy

我尝试模糊匹配两个csv文件，每个文件包含一列名称，它们相似但不相同。到目前为止我的代码如下： import pandas as pd from pandas import DataFrame from fuzzywuzzy import process import csv save_file = open('fuzzy_match_results.csv', 'w') writer = csv.writer(save_file, lineterminator = '\n') def parse_csv(path): with open

浏览 0提问于2015-08-18得票数 10

回答已采纳

4回答

LinkedIntList(java)

java

"RemoveAll“类是链表类的一部分。我编写的类从链表中删除所有键，但不删除重复的键。有人知道为什么吗？我怎样才能删除重复的密钥？ public class LinkedIntList { private ListNode front; private String name = "front"; // Constructs an empty list. public LinkedIntList() { front = null; } public void removeAll(int ke

浏览 0提问于2013-03-04得票数 1

3回答

如何在pandas中优先删除重复项

python、pandas

我是pandas和python的新手，我想要删除重复项，但优先考虑它。这很难解释，但我会举一个例子来说明 ID Phone Email 0001 0234+ null 0001 null a@.com 0001 0234+ a@.com 我如何删除ID中的重复项并保留第三个，因为它既有电话又有电子邮件，而不是随机删除它，例如，如果id没有完成这两个值，它仍将保持为1

浏览 8提问于2021-10-26得票数 0

回答已采纳

3回答

Python(pandas)：基于两列删除重复项，将行与标志保留在另一列中

python、pandas

python pandas的新手，需要删除重复的索引行，并根据一列的标志在重复行中只保留一行，示例如下： Index value 1 value2 flag 1 10 20 on 1 30 40 off 2 11 22 on 2 32 42 off 3 12 22 on 3 33 43 off 根据index和flag cloumn进行过滤后，输出应为： Index value 1 value2 flag 1 1

浏览 70提问于2019-05-18得票数 0

3回答

全文搜索相关性是衡量的吗？

mysql、performance、relevance、full-text-search

我正在做一个问答系统，当提问者将问题插入到问题库中时，我将检查数据库中是否有重复/非常相似的问题。测试MySQL的，我得到的最大关联是30+，当我对一个100%的类似字符串进行测试时。那么到底有什么关系呢？引用相关值是非负浮点数.零关联意味着没有相似性。相关性是根据行中的单词数、该行中的唯一单词数、集合中的单词总数以及包含特定单词的文档(行)数来计算的。我的问题是，如果字符串是重复的，那么如何测试相关性值。如果它是100%重复，防止它插入到问题库。但是，如果它只是如此相似，提示quizmaker验证、插入或不插入。那么我是如何做到的呢? 30+对于100%相同的字符串不是百分比

浏览 3提问于2008-10-26得票数 15

回答已采纳

1回答

Pandas.Dataframe.duplicated()将缺失的行作为重复项包括在内

python、pandas、ipython

我有一个名为Merged的Pandas，它有一个名为RegimentalNumber的属性。我使用Pandas.Dataframe.duplicated()方法从这个数据中检索副本，如下所示： In [16]: Merged[Merged.RegimentalNumber.duplicated() == True] 但是，结果似乎还包括作为重复的RegimentalNumber的缺失值。 duplicated()方法是否使用标志或参数将缺失的值排除为重复值？我查看了这个方法的，但是找不到这样的标志。当然，我可以简单地排除如下所缺少的值： In [17]: duplicates = Merg

浏览 4提问于2016-04-26得票数 5

回答已采纳

1回答

如果符合条件，则从列表中删除重复的值。

vba、excel

我一直试图编写一个for每个循环，以便在一个工作表(第2页)中遍历每一行，以删除另一个工作表(第1页)中的重复项。我的研究也没什么进展。在表1中，我有b栏中的客户编号清单，列在C栏中的产品类型，在d栏中列出了该产品的成本；在另一页2中，我有a栏中的客户名单和b栏中的产品清单。我一直试图编写一个for每个循环，以遍历第2页中的每一行，以检查客户编号和产品，查找表1中具有相同客户号和产品的所有重复项，并删除余额较高的行。表1 A(Year) B(Customer #) C(Product Type) D(Cost) 1) 2015 100

浏览 3提问于2015-07-21得票数 1

回答已采纳

1回答

从字符串列表中删除重复项，同时删除键值

vb.net、filtering

我希望从我拥有的字符串列表中删除重复的项目。我有两个文本文件。一个是我拥有的所有结果，另一个是已经完成的结果。我希望从包含我所有结果的文件中删除完成的结果。到目前为止，我已经尝试了distinct函数，但这将始终留下一个不重复的字符串。有没有办法使用distinct函数同时删除重复的项？

浏览 39提问于2018-12-16得票数 -3

回答已采纳

1回答

是否可以在不创建临时表的情况下从mysql中删除完美的重复记录？

mysql

是否可以从mysql中删除完美的重复记录，而无需在单个查询中创建临时表？ INSERT INTO `test` (`fruit`, `price`) VALUES ('apple', 10), ('grape', 50), ('apple', 10), ('orange', 100), ('orange', 100), ('orange', 100), ('pinaple', 200), ('pinaple', 200), ('pinaple', 20

浏览 7提问于2017-11-27得票数 1

1回答

如何选择与熊猫重复的行？

python、pandas、dataframe、subtraction、divide

我有这样的数据： import pandas as pd dic = {'A':[100,200,250,300], 'B':['ci','ci','po','pa'], 'C':['s','t','p','w']} df = pd.DataFrame(dic) 我的目标是将行分隔为2个数据格式： df1 =包含不沿B列重复值的所有行(非the行)。 df2 =只包含重复主题的行。

浏览 4提问于2016-12-08得票数 13

回答已采纳

6回答

从python dataframe列表中删除重复项

python、pandas、dataframe

我有一个pandas df，其中每行都是一个单词列表。列表中有重复的单词。我想删除重复的单词。我尝试在for循环中使用dict.fromkeys(listname)来迭代df中的每一行。但这会将单词拆分成字母表 filepath = "C:/abc5/Python/Clustering/output2.csv" df = pd.read_csv(filepath,encoding='windows-1252') df["newlist"] = df["text_lemmatized"] for i in range(0,len

浏览 2提问于2019-07-19得票数 1

2回答

不能从.csv栏中移除大熊猫的副本

python、python-3.x、pandas

我试图对包含地址的.csv做一些非常简单的事情。如果任何行包含单列(‘Addresses’)中的重复值，我希望使用熊猫函数drop_duplicates()删除它们。每当我尝试使用drop_duplicates()并将我的数据帧打印或保存到一个新的.csv时，重复的行/值仍然存在。 data = pandas.read_csv(r"C:\Users\markbrd\Desktop\PalmAveAddresses.csv", encoding = "ISO-8859-1") data.drop_duplicates(subset=['Addresse

浏览 4提问于2019-06-11得票数 0

回答已采纳

1回答

数据帧中的重复行，使用多个字段检查重复

python、pandas、duplicates、multiple-conditions

我正在尝试识别数据帧中的重复项，基于四个匹配的字段：'dhid_y'，'from_y'，'to_y‘和'bound_y’。下面的代码在带有“子集”的数据帧上使用.duplicated，指向正在考虑的四个字段。结果应该是重复项被标记为'true‘，而第一次出现的项应该保持为'false’。稍后我将在脚本中使用此信息。然而，并不是所有的副本都被发现了。当仅仅使用dhid_y时似乎可以工作，但是当我添加额外的字段时，它似乎表现不佳-尽管它确实运行了！ import pandas as pd df_merged = pd.read_c

浏览 18提问于2020-09-30得票数 0

2回答

如何在数据帧的一列中存在重复项的情况下删除数据帧中的行

嗨，亲爱的，我有一个在列中有重复的数据帧的小问题。我想删除列中出现重复项的行。例如，我的数据帧是这样的： Value City Card.Type ID 100 Michigan Silver 001 120 Angeles Gold 002 NA Kansas Gold 002 500 Michigan Silver 001 800 Texas Basic 005 您可以看到，在ID列中有两个副本，一个用于001，另一个用于002。我正在使用unique函数，但我无法删除重复

浏览 0提问于2013-04-14得票数 1

回答已采纳

2回答

谁能帮我理解一下.index在这段代码中做了什么？

python、pandas、indexing

我有以下代码： print(df.drop(df[df['Quantity'] == 0].index).rename(columns={'Weight': 'Weight (oz.)'})) 我知道query想要做什么，但我不明白为什么需要添加“.index”部分？ .index在这个特定的代码中做了什么？对于上下文，这里是数据帧的样子： ? 我查看了有关dataframe索引的python文档： https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Data

浏览 47提问于2019-10-02得票数 0

2回答

使用自定义逻辑删除重复项

pandas、duplicates

我有一个具有以下结构的pandas数据帧： df: x y z1 z2 z3 1.01 2.01 11.415 12.345 100 1.009 2.009 11.415 12.345 100 1.01 2.05 11.415 12.345 100 列x和y是用一些噪声测量的。我的工作是对dataframe w.r.t列z1、z2、z3进行“去重”，这样列x和y中的条目就不会彼此“相距太远”。在上面设计的示例中，前两行(第1行和第2行)是在z列中具有相同条目的重复项，并且x和y合理地“关闭”。请注意，第3

浏览 10提问于2017-01-17得票数 4

回答已采纳

1回答

使用Python和pandas进行文本挖掘

python、pandas、text-mining

这可能是复制品，但我没找到... 我正在用Python和Pandas做一些文本挖掘工作。我在DataFrame中有单词，Porter在它旁边有一些其他的统计数据。这意味着在此DataFrame中可以找到具有完全相同波特词干的相似单词。我想将这些相似的单词聚合到一个新的专栏中，然后删除关于Porter词干的重复内容。 import pandas as pd pda = pd.DataFrame.from_dict({'Word': ['bank', 'hold', 'banking', 'holding', '

浏览 0提问于2018-11-27得票数 0

6回答

用于仅删除一个重复行的sql查询

sql-server

我有一个表，里面有一些重复的行。我只想删除一个重复的行。例如，我有9个重复的行，所以应该只删除一行，并且应该显示8个剩余的行。示例日期呼叫被叫时长时间戳 2012-06-19 10:22:45.000 165 218 155 1.9 121 2012-06-19 10:22:45.000 165 218 155 1.9 121 2012-06-19 10:22:45.000 165 218 155 1.9 121 2012-06-19 10:22:45.000 165 218 155 1.9 121 从上面的日期开始，应该只删除一行，并且应该显示3行 2012-06-19 10:22:4

浏览 0提问于2012-06-20得票数 7

2回答

pandas的元素不在索引列表中

python、pandas、indexing

如何获取不在给定索引列表中的pandas DataFrame元素？一个简单的例子： import pandas as pd import numpy as np A = np.linspace(10, 100, 10) A = pd.DataFrame(A, columns=["A"]) ind = [x for x in range(1, 4)] print(A.iloc[ind]) 例如，现在我想获取ind中不存在的所有元素(因此索引为0，5，6，7，8，9)…… 谢谢你的帮助！

浏览 0提问于2018-05-03得票数 3

4回答

在Python Pandas中跨多列删除所有重复的行

python、pandas、duplicates、drop-duplicates

pandas drop_duplicates函数非常适合用来“唯一”一个数据帧。但是，要传递的关键字参数之一是take_last=True或take_last=False，而我希望删除列的子集上重复的所有行。这个是可能的吗？ A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A 例如，我想删除与列A和C匹配的行，因此应该删除第0行和第1行。

浏览 75提问于2014-05-15得票数 197

回答已采纳

1回答

如何使用正则表达式删除python pandas DataFrame中的行？

python、regex、pandas

我有一个模式： patternDel = "( \\((MoM|QoQ)\\))"; 我想删除pandas dataframe中列df['Event Name']与此模式匹配的所有行。哪种方法是最好的？数据帧中有超过100k行。

浏览 8提问于2016-10-10得票数 26

回答已采纳

1回答

合并单个数据帧内的重复数据

python、pandas、jupyter-notebook

我正在使用pandas库我有一个包含数百个数据部分重复项的大型数据库(一列或两列相同，但其中一列包含附加信息)。我希望合并重复的实例，同时保留具有最多信息的行。我只能弄清楚如何合并两个数据库，而不是一个单一数据库中的数据。示例： Col 1: Name, Col 2: Age, Col 3: Other, Col 4: Other, Col 5: Other Row1 Aaron Miser, 32, Plumber, 4 Children, NaN Row2 Aaron Miser, 32, NaN, NaN, NaN Row3 Aaron Miser, 3

浏览 0提问于2019-02-06得票数 0

2回答

Pandas中的.duplicated()方法在值中是否有模糊匹配？

python、pandas、dataframe、fuzzy-logic

我正在为我的数据科学课程做一个练习，其中涉及一个数据集，其中包含几条关于Google Playstore应用程序的信息。该练习要求删除任何重复的行和列，并填充任何丢失的数据。检查列，他们都很好，没有重复。因此，我只检查重复项可能有问题的列，即dataset的“App”列。毕竟，其他数据可以而且很可能会重复，因为它是所有人共享的信息，因此我的理由是过滤掉'App‘列中的重复项。这就是问题所在:我使用了duplicate方法。通过添加这个序列，我可以得到有多少行是重复的-通过使用.loc方法，我可以提取它们的实际值。我使用了以下代码： df_pst.loc[df_pst.duplic

浏览 19提问于2021-06-15得票数 0

2回答

具有重叠时间框架的时间序列，仅使用Excel查询中最新的

excel、time-series、powerpivot、powerquery

我有以下问题：在Power查询中，我可以将多个csv文件与power查询合并在一起，并具有从文件夹加载的功能。毫无疑问，我们得到的timeseries数据是重叠的，整个timeseries的值发生了变化。例如，我们每周一都会收到一份过去30天的文件。过去30天的数值确实发生了变化，因此我上周报告中的值可能不再是最新的了。我的目标是用本周的新数据覆盖上周的旧数据。示例：文件A Date Item Hits Solved 01.01.2018 A 100 50 01.01.2018 B 138 65 02.01.2018 A

浏览 2提问于2018-08-10得票数 0

回答已采纳

5回答

递归-删除重复项

java

我正在开发一种方法，它可以递归地删除ArrayList中元素的重复项。但我遇到了一个小问题，我的方法可以工作并删除一些元素，但不是所有重复的元素。下面是我的输入： 100, 200, 200, 300, 400, 300, 100, 500, 500, 400, 100, 400, 100, 100 下面是输出： 100, 200, 300, 400, 100, 500, 100 我的方法是： public static void removeDuplicates(ArrayList<Integer> list, int counter){ if(list == null

浏览 2提问于2013-03-17得票数 0

回答已采纳

1回答

从视图中的不同节点筛选重复日期

7、views

我在我的网站上有一个“历史上的这一天”页面，当我在一个月的视图中看到每月发生的每一天发生的事情时(例如，1月1日:猴子学会骑摩托车，1月2日:水獭入侵等等)。我的问题是，我们要添加一些新的历史日期，因此在这个视图中，我开始看到具有不同内容的重复日期。(也就是说，1月10日:叶蒂发现了，1月10日:驼鹿和熊一起野餐)。问题是，我不希望在这个视图上有重复的日期，而是只希望显示最近发布/更新的节点。是否有一种方法可以从视图中的日期字段中订购一个唯一的基于日期的字段？我确信我可能可以通过视图模板来完成这个任务，只需手动删除重复的日期，但我希望首先限制接收到的数据量。我想知道这是否可以通过聚合来

浏览 0提问于2014-01-23得票数 0

回答已采纳

2回答

如何在sql查询中将重复值计数为一个值

php、mysql、sql

对于SQL表列中的重复值，我有一个问题。我想对列值进行和，但只计数重复一次(类似于合并它们)；如下所示： | Items | value1 | Sub Items | value2 | | -------- | ------ |------------- | -------- | | First | 50 | First First | 20 | | First | 50 | First Second | 50 | | Second | 20 | Second First | 50 | | Secon

浏览 1提问于2022-08-07得票数 0

2回答

正则表达式上的拆分列

python、regex、data-cleaning

我真的很纠结于regex，我希望能得到一些帮助。我有这样的专栏 import pandas as pd data = {'Location': ['Building A, 100 First St City, State', 'Fire Station # 100, 2 Apple Row, City, State Zip', 'Church , 134 Baker Rd City, State']} df = pd.DataFrame(data)

浏览 6提问于2021-09-14得票数 1

回答已采纳

1回答

根据实例数使用value_counts()和筛选元素

python-3.x、pandas

我使用以下代码在直方图中创建两个数组，一个用于计数(百分比)，另一个用于值。 df = row.value_counts(normalize=True).mul(100).round(1) counts = df # contains percentages values = df.keys().tolist() 所以，输出看起来就像 counts = 66.7, 8.3, 8.3, 8.3, 8.3 values = 1024, 356352, 73728, 16384, 4096 问题是有些价值观只存在一次，我想忽略它们。在上面的例子中，只有1024次重

浏览 2提问于2022-01-04得票数 1

回答已采纳

1回答

如何处理CSV字典中的“缺少键值”和处理Pandas数据帧？

python、csv、dataframe、dictionary、data-analysis

我想拒绝pandas数据帧中缺少键值的记录，只分配CSV中存在的记录。例如，只匹配那些提到“价格”的“名称”。 'Names' 'price' Ram 100 John 200 dan Mike 500 Capri

浏览 15提问于2019-12-19得票数 1

1回答

在dataframe中删除重复值的两种方法之间的不同行为

pandas

我测试了两种将重复的行删除到dataframe中的方法，但是它们没有获得相同的结果，我不明白为什么。第一个代码： file_df1 = open('df1.csv', 'r') df1_list = [] for line in fila_df1: new_line = line.rsplit(',') df1_firstcolumn = new_line[0] if df1_firstcolumn not in df1_list: df1_list.append(df1_firstcolumn)

浏览 2提问于2020-06-13得票数 0

回答已采纳

1回答

从包含重复javascript的数组中删除数组中的元素

javascript、jquery、arrays

我有两个数组，我想删除第一个数组中的元素，只删除第二个数组中的元素一次，保留其他重复的元素，可能是： array1 = [1,1,1,1,2,2,2,2]; array2 = [1,1,2]; //resultingArray = [1,1,2,2,2]; 似乎我得到的所有答案都是关于在搜索时删除重复项.. 我想知道是否有一种方法可以用filter做到这一点，但它似乎只过滤所有条目 resultingArray = array1.filter(function(el){ return array2.indexOf(el) === -1; }); //resultingArray =

浏览 5提问于2020-02-16得票数 0

回答已采纳

1回答

如何组合大熊猫的重复行？

pandas、merge、duplicates、missing-data

如何组合大熊猫中重复的行，填充丢失的值？在下面的示例中，一些行在c1列中缺少值，但c2列有重复项，可用作查找和填充这些缺失值的索引。输入数据如下所示： c1 c2 id 0 10.0 a 1 NaN b 2 30.0 c 3 10.0 a 4 20.0 b 5 NaN c 期望产出： c1 c2 0 10 a 1 20 b 2 30 c 但是怎么做呢？下面是生成示例数据的代码： import pandas as pd df = pd.DataFrame({ '

浏览 0提问于2018-07-12得票数 2

回答已采纳

3回答

熊猫模糊检测重复项

python、pandas、fuzzy-search、locality-sensitive-hash、record-linkage

如何在pandas中使用模糊匹配来检测重复行(高效) 如何找到一个列与所有其他列的重复项，而不是转换row_i toString()的巨大for循环，然后将其与所有其他列进行比较？

浏览 10提问于2016-09-14得票数 4

回答已采纳

1回答

GNU R:如何删除字符串中每个单词开头和结尾的重复字符？

r、string、replace、character

在GNU R中，我需要删除字符串中每个单词开头和结尾的重复字符。以防我有输入 str <- "Tthis iss a splendiddd ddayyy" 输出应为 "This is a splendid day" 有人知道怎么做吗？非常感谢您的提前！祝你好运，埃里克

浏览 0提问于2018-03-06得票数 3

2回答

如何使用notepad++或其他工具删除重复的块？

regex、notepad++、duplicate-removal

如何从文件中删除重复项。不是简单的线，而是块。我有一个很大的清单，像这样： define service { param1 ABC param2 XYZ param3 123456 } define service { param1 K

浏览 0提问于2013-05-29得票数 0

回答已采纳

5回答

从数据帧中删除反向重复项

python、pandas、dataframe

我有一个包含两列的数据框，A和B。在这种情况下，A和B的顺序并不重要；例如，我认为(0,50)和(50,0)是重复的。在pandas中，从数据帧中删除这些重复项的有效方法是什么？ import pandas as pd # Initial data frame. data = pd.DataFrame({'A': [0, 10, 11, 21, 22, 35, 5, 50], 'B': [50, 22, 35, 5, 10, 11, 21, 0]}) data A B 0 0 50 1 10

浏览 63提问于2016-11-08得票数 14

回答已采纳

1回答

通过匹配两个不同列中的值对行进行排序

excel、vba、excel-formula

我必须在我的工作表中查找基于两列的重复条目-列A和列D。如果这两列下的条目在任何两个给定行中都匹配，那么我认为它们是重复的。为此，我一直在尝试对行进行排序，以便在列A和列D下具有匹配条目的行一个接一个地出现。例如，如果我有： A列B列C D列 ABC PQR 123 456 ABC XYZ 789 006 ABC BNM 376 456 ABC QWR 387 006 最好是通过VBA，我希望能够将其放在以下格式中： A列B列C D列 ABC PQR 123 456 ABC BNM 376 456 ABC XYZ 789 006 ABC QWR 387 006 我知道如何按一列排序，但不确定是

浏览 15提问于2019-08-15得票数 0

回答已采纳

1回答

Python:删除剩下的单词，只保留第一个单词

python、pandas

我有一个包含带有重复字符串的列的dataframe。我想取第一个单词，并从我所有的行中删除其余的单词。我使用了唯一的方法，因为它返回所有唯一的值，我只是在寻找第一次出现的单词行。代码： import pandas as pd import numpy as np import re df=pd.read_csv("file name") new_data=df['Category'].unique() changed_data=df['Category'].str.replace('[^a-zA-Z]+', '&#

浏览 1提问于2018-12-11得票数 0

回答已采纳

1回答

删除某些行包含列表而其他行包含int/string的重复项

python、python-3.x、pandas、dataframe

我有一个数据帧，我想在其中删除具有重复ID的行。在大多数情况下，ID是整数和字符串。然而，一些ID条目是多个ID的列表。我不能拆分这些列表，但是当尝试删除重复项时，我得到一个错误。作为参考，我使用了df = df['ID'].astype(str)，它对下面显示的错误没有任何影响。 df代码： d = {'ID': [999, 123, F41, 99W21, 662, 123, [552, F430, R111], 44482, F41, [M192, 5527, 7890, 111120] ]} df = pd.Dataframe(data

浏览 16提问于2019-11-19得票数 0

1回答

熊猫DataFrame.drop_duplicates()遗漏了什么吗？

python、python-3.x、pandas

我对Python比较陌生，对熊猫来说更新。我正在努力开发一个简单的网络刮刀，以寻找确实的工作岗位。这主要是为了学习语言，但如果我从中找到一份新工作，那就更好了。数据的性质意味着将会有很多重复的数据，这就是我到目前为止所看到的。因此，在将数据文件发送到.csv文件之前，我希望删除重复的数据。我尝试在我正在处理的代码中实现DataFrame.drop_duplicates()，但是它没有工作。因此，我创建了一个单独的脚本，只测试drop.duplicates()方法，而不必先遍历所有其他代码，以确保语法正确，并按预期的方式运行。这就是我所拥有的： import pandas as pd df=p

浏览 2提问于2018-01-29得票数 1

回答已采纳

1回答

如何在Pandas中比较两个数据帧并删除数据帧中不匹配的行？

python-3.x

我是python (尤其是熊猫)的新手。我有两个数据帧df1和df2。df1有200行。df2有250行。索引值也包含重复项。 df1: ProcessID 248 436 500 500 另一个数据帧 ProcessID Day Time Status 248 Sun 23:26:51 completed 436 Sat 01:50:56 completed 500 Thu 14:18:21 completed 500 Wed 23:00:15

浏览 3提问于2018-04-08得票数 0

1回答

FieldValue.arrayRemove()根据属性值从对象数组中移除对象

firebase、flutter、dart、google-cloud-firestore

我有一个结构如下的文档： { "email" : "a@gmail.com", "value" : 100, "children" : [ { "email" : "b@gmail.com", "value" : 100 }, { &

浏览 29提问于2020-01-11得票数 2

回答已采纳

1回答

在DataFrame中查找匹配的行

python、pandas

假设用pandas制作一个数据框 df = pandas.DataFrame({"a":[1,2,3],"b":[3,4,5]}) 现在我有一个系列 s = pandas.Series([1,3], index=['a','b']) 好的，最后，我的问题是，我如何知道s是df中的一项，特别是我需要考虑性能？ ps:在df中或不在df中测试s时，最好返回True或False。

浏览 0提问于2020-07-28得票数 1