有没有一种更快的方法来根据重复值的数量来过滤Pandas数据帧？_有没有一种更快的方法来检查csv文件中列中的相似数据值？_有没有一种方法可以根据特定值过滤数据帧，同时使用pandas保留唯一标识符的所有其他值？ - 腾讯云开发者社区

python、pandas

目前，我正在使用以下函数； df['i'] = df.groupby(['i']).filter(lambda i: len(i) > 500) 在其他数据帧上测试后，这可以按预期工作，但处理大量组时除外我正在尝试对大约50,000个组使用它，到目前为止还没有看到我的程序处理这一行。我让程序运行的最长时间是不到48小时。 Edit:假设lambda函数不会删除所有组，该方法适用于大型组。将一个组的最小长度减少到250，允许程序在30秒内执行。

浏览 17提问于2021-01-20得票数 1

回答已采纳

1回答

使用函数过滤pandas数据帧

python、pandas、dataframe

假设我有一个具有列A, B, C, D, E, F, G, H的pandas dataframe df，并且我想使用一个函数functn来过滤数据帧，该函数接受一个“行”，并根据该行是否满足特定条件返回有没有一种方法可以有效地过滤这个数据帧而不使用又长又难看的lambda？到目前为止，我的解决方案如下所示： df = df[df.apply(functn, axi

浏览 17提问于2017-12-14得票数 2

回答已采纳

2回答

在Python中计算if (COUNTIF)和add到数据帧

python、pandas、dataframe、duplicates、countif

我有一个数据帧，它有很多重复项。我找到了许多解决方案来查找重复项的数量，但不是我想要的方式。如果新列的重复数小于或等于2，有没有办法计算新列中的重复数？数据帧如下所示： NAME1 Peter3 Jack5 Luke 但我希望它看起来像这样：

浏览 22提问于2019-02-13得票数 2

回答已采纳

2回答

如何使用pandas从以第一个单词为列的文本文件创建数据帧？

python、pandas、dataframe、data-science

我有一个有数百万行的数据集。我需要一种更快的方法来创建以下格式的数据帧： column_1 column_2 Yes Go to SchoolYes Go to School No Play video games for hours 有没有<em

浏览 36提问于2020-12-28得票数 0

1回答

如何在dask中找到数据帧的长度？

python、pandas、dask

如何使用dask找到数据帧的长度？例如，在熊猫中，我可以这样做：import numpy as np我需要长度的真正原因是因为df_dask.sample()需要一个小数，而我想从数据<em

浏览 0提问于2018-05-28得票数 6

2回答

查询多选查询

python、postgresql、pandas、sqlalchemy

到目前为止，我正在逐个迭代pandas数据帧，并根据几个数据帧值向数据库发出select查询，以检查数据是否存在。in dataframe.iterrows():如果数据量很大我只是好奇，有没有一种</e

浏览 4提问于2018-10-22得票数 0

1回答

如何计算R quosure中的变量数量？

r、dplyr、tidyverse、rlang、tidyeval

假设我有一个函数，它使用非标准求值(NSE)接收一个数据帧和该数据帧中不同数量的变量。有没有一种更快/更直接的方法来计算提供的变量的数量，而不是select()这些变量并计算列数？

浏览 10提问于2018-08-11得票数 4

1回答

测试Pandas数据框值并修改它们的正确方法

python、pandas

我需要根据测试修改Pandas数据帧的一些值，而保持其他值不变。我还需要保持行的顺序不变。for index, row i

浏览 10提问于2019-07-10得票数 0

回答已采纳

2回答

过滤掉python pandas中两个百分位数之间的数据

python、pandas、numpy

我有pandas数据帧，我想要消除列的极值。例如:我有一个叫做df的pandas数据框，还有一个叫做percentage的列。我想根据以下条件过滤出数据框，根据percentage列中的值消除前10个百分位数和最后10个百分位数。我想把它过滤到10%到90%。df.percentage > np.percentile(d

浏览 30提问于2019-04-28得票数 1

回答已采纳

0回答

正确访问存在重复索引值的切片

pandas、indexing

我有一个带有索引的dataframe，它有时包含具有相同索引值的行。现在，我想对该数据帧进行切片，并根据行索引设置值。考虑以下示例：df.set_indexwarning df1.iloc[0:2]['values'] = 9

浏览 2提问于2017-11-28得票数 1

回答已采纳

2回答

如何使用Scala在Spark SQL中按日期范围列表进行过滤

scala、apache-spark、dataframe

假设我们有一个名为df的数据框，其中有一个名为"DATE“的列。我知道我们可以用df.filter(col("DATE").between(startDate, endDate))按日期范围过滤数据框，或者用df.filter(col("DATE").between(startDate, endDate) || col("DATE").between(startDate1, endDate1) || ...)按多个日期范围过滤

浏览 3提问于2018-12-08得票数 0

1回答

如何使用匹配值对数据进行分组

python、pandas

我刚开始使用Pandas，我正在尝试重构一个数据帧，以删除第一列中的重复项，同时保留每个重复项的数量，并取第二列中的值的总和。1 | B | 1 | 5 |+---+------+--------+-------+ 到目前为止，我还没有找到一种有效的方法来做到这

浏览 2提问于2019-04-05得票数 0

1回答

pandas奇特的索引和合并

python、pandas

在通过花哨的索引过滤后，将更改合并回pandas数据帧的最简单方法是什么？d[d.x % 2 == 0]['y'] = 0 “奇特的</em

浏览 0提问于2013-01-13得票数 4

1回答

非常大的制表符分隔的文本文件的列选择

python、r、large-files

我正在处理一个非常大的以制表符分隔(大约20000行* 30000列)的.txt形式的表，这使得文件大于20 tab。我检查了桌面的内存，似乎无法直接使用R中的read.delim或python中的pandas来读取该文件。我目前正在考虑基于列的过滤器制作表的一个小子集，新的文本文件将是20000行* 1200列。我已经将目标文件的列名保存在另一个文件中，我猜我的

浏览 34提问于2020-10-19得票数 0

回答已采纳

1回答

根据细胞的相对值给熊猫中的细胞着色

python、python-3.x、pandas

我想要给(python) pandas数据帧的单元格着色，根据它们的值是在此列中数据的前5%，前10%，...，最后10%，最后5%。根据这篇文章的Coloring Cells in Pandas，一个人可以定义一个函数，然后将其应用于数据帧。如果你想在一个固定的范围内给单元格上色，这是很好的。但是，如果只想

浏览 9提问于2019-04-20得票数 0

回答已采纳

1回答

获取“pandas”中一个变量中另一个变量为真的每个变量的比例

python、pandas、dataframe

我在pandas中有一个数据帧，它包含一个列'A‘和一个布尔值列'B’，我想找出'A‘的值，对于这些值，至少有一定数量的n行的'B’为真。我能想到的最接近的是然后看看这些数字，看看哪些大于，n。有没有

浏览 0提问于2014-03-11得票数 2

1回答

尝试使用列表从pandas系列中删除大量文本

python、performance、list、pandas、nlp

我的问题基本上是这样的。我有一个pandas dataframe，它的一个列包含相当多的文本(通常是20到200个单词)。这个数据帧大约有600k行。最重要的是，我有一个单词列表，大约有15万个条目长，需要从数据帧中的字符串中过滤掉。我目前正在使用这个方法来做这件事： reports['Re

浏览 0提问于2018-06-14得票数 0

3回答

Pandas:基于现有列的值创建新列

python、pandas

我有一个包含两列的pandas数据帧，如下所示： A BYes YesNo NoNA NA 我希望基于这些值创建一个新列，以便如果有任何列值为Yes，则新列中的值也应该为Yes。如果两列都具有值No，则新列也将具有值No。最后，如果两个列的值都为NA，则新列的输出

浏览 12提问于2020-05-02得票数 4

回答已采纳

1回答

用复杂的规则快速填充pandas数据帧的缺失值

python、algorithm、pandas、dataframe、variable-assignment

在m*(n+1) pandas dataframe data_df中，有一个timestamp列，它的值可能是range(0,p) (表示时间；总共有p个唯一值)中的重复整数，并且没有遗漏的值。还有其他列data_1、data_2、data_3、... data_n，每个列都缺少一些值。我想使用与该行的timestamp值相关的特定数字来填充数据</em

浏览 0提问于2017-01-16得票数 0

2回答

从多个子文件夹加载未知数量的文件

python、pandas、loading

我在多个子文件夹中获取了不同数量的检测器数据，基本上我需要将它们组合到一个pandas数据帧中。使用给出:例如，1464个文件 /

浏览 0提问于2020-06-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云