在一次运行中按不同键对Pandas数据帧进行分区_按特定列中的索引对pandas数据帧进行切片_按最多三列对pandas数据帧中的示例进行排序 - 腾讯云开发者社区

python、pandas

在SQL中，我们可以在OLAP函数的帮助下按不同的键一次性计数，从而提高sql性能： select C,count(A) over (partition by B, C, D orderby_BC,count(A) over () as total, from table; 我们可以在一次pandas</e

浏览 25提问于2019-06-27得票数 0

1回答

两个数据帧火花连接操作

pyspark、pyspark-dataframes

我的问题是取O(n^2) 是否有可能对两个数据帧进行排序并使其具有更好的性能？如果不是这样的话，怎样才能让join更快呢？

浏览 0提问于2019-09-20得票数 0

1回答

Spark中多个数据帧上的大量转换

scala、apache-spark

我有一个基于spark的转换引擎，它是元数据驱动的。我在Scala MapString DataFrame中对内存中存储的多个数据帧执行一组转换。我遇到一种情况，我使用84种转换生成数据帧，包括(withColumn、Join、union等)。在这些之后，输出数据帧被用作另一组转换的输入。如果我在前84次转换后写入中间转换结果，然后将数据帧从输出路径加载到Map中

浏览 11提问于2020-06-27得票数 0

1回答

Pyspark订购问题

python、apache-spark、pyspark、apache-spark-sql

我的数据显示在图像中：我一直试图对这个数据帧进行分区和排序，这样我们就可以得到如下图像所示的输出：尝试过使用不同的列进行分区和排序，例如按id和date进行分区以及按id、date和column3排序，然后再次尝试使用分区和按id和date排序，但在所有情况下它都显示了不同</e

浏览 2提问于2021-05-25得票数 0

回答已采纳

1回答

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

python、pandas、dask、rapids、cudf

有时，使用dask.dataframe.map_partitions进行合并之类的操作很有吸引力。在某些情况下，当使用map_partitions在left_df和right_df之间进行合并时，我希望在执行合并之前先预缓存right_df，以减少网络开销/本地混洗。感觉应该可以使用client.scatter(the_df)、client.run(func_to_cache_the_df)或其他智能广播中的一种或两者的组合。感觉这个right_df应该能够读入内存，并持久&#

浏览 0提问于2019-07-30得票数 2

2回答

在spark sql join之后是否保留分区？

apache-spark-sql

为了确保两个数据集的协同定位和共同分区，必须在同一作业中按相同的键和分区数量对它们进行分区。如果我连接这些数据集，得到的连接数据集是否保留此分区？如果我随后在同一作业中按相同的键和分区数量对第三个数据集进行分区，这是否能

浏览 0提问于2018-08-16得票数 1

3回答

df.repartition和DataFrameWriter partitionBy之间的区别是什么？

apache-spark-sql、data-partitioning

我希望这两种方法都能用于“基于数据帧列的数据分区”？或者有什么不同？

浏览 4提问于2016-11-04得票数 60

回答已采纳

1回答

有没有一种方法可以在分区的spark数据集上并行运行操作？

algorithm、scala、apache-spark、dataset

我有一个数据集的列表，我希望按所有数据集共有的特定键进行分区，然后运行一些连接/分组，这对所有分区的数据集都是相同的。我正在尝试以这样一种方式设计算法:我使用Spark的partitionBy根据特定的键创建分区。现在，一种方法是在循环中对每个分区运行操作，但效率不高。我想看看我是否有手动分区的<e

浏览 0提问于2019-07-02得票数 1

2回答

DyanmoDB显示项目计数= 0，未填充，并且在Appsync查询中不起作用

amazon-dynamodb、aws-appsync

我已经向我的DynamoDB表添加了一个索引，以便对结果进行排序，但是它似乎没有做任何事情。在DyanmoDB仪表板中，它显示为0大小和0项目计数。 "version" : "2017-02-28", "operation&q

浏览 0提问于2019-03-07得票数 2

7回答

是否同时对列和索引值对pandas数据帧进行排序？

python、pandas、sorting、dataframe

按列的值和索引对pandas dataframe进行排序是否可行？如果按列的值对pandas数据帧进行排序，则可以得到按列排序的结果数据帧，但不幸的是，您会看到数据帧的索引顺序与排序列的值相同。那么，我是否可以按列对数据帧进行排序，例如名为count的列，

浏览 2提问于2013-11-29得票数 59

2回答

apache spark内部的批处理API调用？

apache-spark

我是Apache Spark的初学者，我有以下任务：有没有办法用spark以一种合理的方式做到这一点？我想到了读取记录，将它们预处理到另一个数据源，然后一次读取"API-Queue“<

浏览 1提问于2016-02-03得票数 12

回答已采纳

1回答

将配置单元分区表加载到Spark Dataframe

hadoop、apache-spark、hive、apache-spark-sql、spark-dataframe

我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.shuffle.partitions默认设置为200。我想知道是否有什么好方法可以将我的Hive表加载到具有104个分区的Spark

浏览 1提问于2016-03-28得票数 1

1回答

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

python、parquet、pyarrow、apache-arrow

我有一堆parquet文件，每个文件都包含我的数据集的一个子集。假设文件名为data-N.parquet，其中N是一个整数。我可以全部读取它们，然后将其转换为pandas数据帧： files = glob.glob("data-**.parquet") files,metadata_nthreads=64,df = ds.to_pandas() 这个很好用。它希望<e

浏览 48提问于2021-09-29得票数 1

回答已采纳

1回答

PySpark -遍历数据帧的每一行并运行配置单元查询

python、apache-spark、pyspark

我有一个包含100行名称、年龄、日期、小时的数据帧。我需要用不同的日期值对这个数据帧进行分区。假设这100行中有20个不同的日期值，那么我需要产生20个并行配置单元查询，其中每个配置单元QL都会将这些分区中的每个分区与一个配置单元表连接起来。Hive表- dept，couse，date按日期字段分区。 Hive表很大，因此我需要将这些连接优化为多

浏览 0提问于2017-09-19得票数 0

1回答

生成器中的一个排序关键字是否可以使用不同的分区关键字进行排序？

amazon-dynamodb、nosql

适应DynamoDB：)我之所以问这个问题，是因为我想知道如何分配吞吐量，我确信我最近创建和编辑的项目最有可能被访问，而旧项目几乎可以被归档。

浏览 12提问于2017-02-25得票数 2

1回答

dask dataframe应用程序不能并行执行

python、multiprocessing、dask

我有以下python脚本，其中我使用现有的pandas数据帧创建了一个dask数据帧。我使用的是多进程调度器，因为我的函数使用纯python。调度器创建8个进程(每个分区一个)，但它们是按顺序运行的，一次一个。dask_data = ddf.from_pandas(data, npartitions=8) images_array_1=dask_d

浏览 4提问于2016-06-29得票数 1

1回答

对于包含另一个表的引用键的表，我们可以在PostgreSQL中使用继承吗？

postgresql

itemdetail表具有其他表的引用键，我希望按日期对该表进行分区(每年一次)。有没有人对如何做到这一点有任何建议？谢谢

浏览 3提问于2013-08-16得票数 0

回答已采纳

1回答

运行存储过程时分区键错误

python、python-2.7、azure、stored-procedures、azure-cosmosdb

我试图用/newpart的分区键将单个记录插入到集合中。 function createMyDocument(documentToCreate) { var context =partition keys other than the one for which client request was submit

浏览 1提问于2017-10-27得票数 0

回答已采纳

1回答

熊猫between_time相当于Dask DataFrame

python、pandas、dask

例如，在级联的数据帧中，我想过滤掉时间子集，比如我将如何使用pd.between_time("09:30", "16:00")。因为Dask对索引的内部表示没有Pandas的DateTimeIndex那样好的特性，所以我已经成功地过滤了我通常在Pandas中的表现。除非求助于一个简单的映射函数/循环，否则我无法让它在Dask中工作。由于分区是按日期划

浏览 6提问于2020-06-18得票数 3

2回答

Spark:当groupBy被调用时，重新分区到一个节点的数据帧是否会经历一次洗牌？

scala、apache-spark、hadoop、apache-spark-sql、bigdata

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了一次.coalesce(1) )。现在，我想对数据进行分组并对其执行聚合。如果我在数据帧上使用.groupBy，这些组是否会被放在不同的节点上？如果这是真的，我想避免这种情况，因为我希望在不进行太多混洗的情况下对组执行这些计算。

浏览 14提问于2019-03-04得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云