优化数据帧中的数据过滤

文章/答案/技术大牛

发布

1回答

、

有没有更好/更快的方法来通过列user_option来过滤数据帧df2，它可以是整个u_choices列表中的那些列。目前我已经写好了下面的代码。(df2['user_option'] == 'c3')| (df2['user_option'] == 'a2d2)| (df2['user_option'] == 'e4')] 当处理跨越多个区域的数十

浏览 12提问于2021-09-22得票数 0

回答已采纳

1回答

在星火中加入Dataframe表演

、

我正在加入两个数据文件，它们从df.join读取csv文件，并使用s3连接它们。使用默认spark.sql.shuffle.partitions (200)时，需要9分钟才能完成。当我将spark.sql.shuffle.partitions改为10时，它仍然占用几乎相同的时间。

浏览 3提问于2021-04-19得票数 0

1回答

如何优化此数据帧过滤？

、、、

我有一个天气数据的数据框架：0 USW00094889 2014-11-12 TMAX我尝试的方法是创建一个包含所有日期的列表：dates = df['Date'].unique()，然后循环遍历数据并将值附加到这些列表中： minT.appendmaxT.append(df[(df['Date

浏览 0提问于2017-04-06得票数 0

1回答

以最有效的方式对Pandas Dataframe进行排序和过滤

、

我想按列名'duration‘过滤，然后显示大于200的值。这只是数据集的一小部分。我有一个非常庞大的数据集。我可以使用dfdf.duration > 200。但是，这在整个数据帧上运行。有没有什么方法可以专门针对列持续时间，然后过滤数据，只显示列持续时间，而不引入新的数据帧。另外，一些关于在大型数据集(工作环境)中</e

浏览 24提问于2021-04-17得票数 0

2回答

在数据帧上创建Spark作业的时间非常长，其中包含多个过滤条件

、

我有一个具有shape (1e10, 14)的PySpark数据帧，我想用大约50个复合OR语句对其进行过滤，即：(col1='val1' and col2=5) oror...df_f = df.filter(sql_string)如果这些单个OR语句的数量小于10，则会立即创建show方法的

浏览 0提问于2020-05-04得票数 0

1回答

GPUImage capturePhotoAsImageProcessedUpToFilter只为最后一个过滤器工作

、、、

在我的应用程序中，我使用了一个由3个过滤器组成的堆栈，并将其添加到stillCamera中。我试图从filter1获取图像，它是一个空的过滤器，因此它返回实际的图像。作为我正在使用的修复方法：调用capturePhotoAsImageProcessedUpToFilter和imageFromCurrentlyProcessedOutput

浏览 5提问于2014-01-14得票数 1

回答已采纳

1回答

优化代码以过滤R数据帧

、

我有一些R代码，它从命令行接收args字符串，然后根据列中的值过滤数据帧；args字符串包含列名。现在我正在通过遍历向量来做这件事，但是有些东西告诉我一定有更好的方法。有没有办法优化这段代码？

浏览 2提问于2017-04-08得票数 0

2回答

在Spark Dataframe上重复过滤？

、、

我有一个大的Spark数据帧，其中包含各种财务信息，假设模式如下所示： Amount 0 10.000 5.001 15.15 我想要做

浏览 13提问于2020-07-22得票数 1

3回答

Spark需要像RDD这样的过滤器后进行重新分区吗？

、、、

根据大量的资源，建议在过滤操作后重新划分RDD .因为，现在有可能大多数分区是空的。我怀疑如果数据帧是在当前版本中处理的，还是仍然需要在筛选操作之后重新划分它？

浏览 0提问于2018-05-22得票数 2

回答已采纳

2回答

熊猫一种新特征计算的优化

、、、、

我正在尝试优化熊猫上的一个函数的计算。我有一个简单的数据帧和我的函数(df)。 def func(x): df1 = big_df[(big_df['col1'] !return df1['col5']

浏览 0提问于2021-02-16得票数 0

1回答

根据常用日期过滤多个数据帧

、

我有21个数据帧。每个dataframe都有一个日期列。我想要做的是根据每个数据帧共有的日期来过滤所有这些数据帧。以下是数据帧的示例： ? 现在图20其他类似的数据帧，我想将它们全部过滤掉，以便所有的数据帧只包含每个数据帧共有的日期数据。因此，每个<e

浏览 36提问于2021-07-17得票数 0

回答已采纳

1回答

我有一个pandas的车辆坐标数据框架(从多个车辆在多天)。对于每一辆车和每一天，我都会做两件事:要么对它应用一个算法，要么如果它不满足某些标准，就把它完全从数据集中过滤出来。我先使用df.groupby('vehicle_id', 'day')，然后使用.apply(algorithm)或.filter(condition)，其中algorithm和condition是接收数据帧的函数我希望我的数据</

浏览 3提问于2017-06-28得票数 5

1回答

dask read_parquet方法的过滤给出了不需要的结果

、、、、

然而，有时它不会根据给定的条件进行过滤。示例:使用dates列创建和保存数据框架import numpy as np当我从dates文件夹读取和过滤04'))] df = d

浏览 0提问于2018-07-09得票数 8

回答已采纳

1回答

数据过滤优化

、

这可能是一个简单的问题，但是当查询分区时，如果我在日期之间进行过滤，或者只是说where date >=某个日期，查询会不会运行得更快一些？或者这真的不会有多大的不同？

浏览 20提问于2021-10-12得票数 0

2回答

R-将固定类别的零值替换为非零值的平均值

、、

我得到了一个以下形式的数据集age<-rep(50:59, 10)4 1990 53 A 1.9222384 6 1990 55 A -1.2671957 现在，我想将"value“列中

浏览 0提问于2019-03-23得票数 0

1回答

如何过滤R中的“任何值”？

、、

奇怪的问题，但是我如何过滤，以使数据帧的所有行都被返回？例如，假设您有以下数据帧：Name <- c(rep("Adam",5), rep("Ben",5), rep("Charlie",5),rep("Daisy",5)) 假设您想为此数据</e

浏览 1提问于2016-03-08得票数 0

3回答

数据帧中的优化替换

、、

在开发这个问题的答案时，我突然意识到，这可能是for循环比*apply函数更有效的情况之一(我一直在寻找一个很好的例子，说明*apply并不一定比构造良好的for循环“更高效”)。性能将根据我的笔记本电脑上的microbenchmark (一个运行R3.3.2的廉价Windows )评估的执行时间来判断。考虑一下数据框架： col_1 <- c(1,2,NA,

浏览 7提问于2017-01-06得票数 1

回答已采纳

1回答

如何过滤数据帧中的数据

、、

**大家好，我有一个12个月预测的Dataframe，现在我想添加一个新的列来分离这个月 df = df[df['TERMIN'] <= pd.Timestamp(arrow.utcnow().ceil('month').date()) + relativedelta(months=+12)] 这是过滤器，以显示12个月的预测，现在我想分开所有的月份所以我需要新的专栏 df[0] = Juni df17 LCA64335B 2021-05-24 14.

浏览 13提问于2020-06-15得票数 0

2回答

尽管数据大小未超过内存，但仍出现内存不足错误

、、

我正在尝试从一个MySQL表中加载一个dask数据帧，它占用了大约4 4gb的磁盘空间。我使用的是一台内存为8 8gb的机器，但当我执行drop复制并尝试获取数据帧的长度时，就遇到了内存不足错误。下面是我的代码片段： df = dd.read_sql_table("testtable", db_uri, npartitions=8, index_col=sql.func.abs(sql.column("i

浏览 0提问于2021-07-13得票数 1

2回答

无法向python中的dataframe添加新列

我试着做一件非常简单的事情，我通过将两个数字相除来创建一个速率，现在我试图将这个速率添加到一个数据帧中：它给出了这个错误： A value is trying to

浏览 0提问于2021-06-25得票数 0

点击加载更多