如何基于每个分区重新索引数据帧_基于其他数据帧索引在特定级别上重新索引多索引数据帧_重新索引多索引数据帧 - 腾讯云开发者社区

python、pyspark、apache-spark-sql、pyspark-sql

假设我有以下由pyspark创建的数据帧 id date deleted1 2019-02-04 false3 2019-02-08 false 3 2019-02-06 true 我想从最早的日期到现在(比如2019-02-09)每天重新索引这个表，最早的日期基于每个id (即2019-02-01)来处理最早的日期，然后为每个

浏览 21提问于2019-02-10得票数 1

1回答

转换后保留Spark数据帧的分区数量

apache-spark、apache-spark-sql、partitioning、data-partitioning

我在代码中发现了一个bug，其中一个数据帧被分割成比预期更多的分区(超过700个)，当我试图将它们重新分区到只有48个时，这会导致太多的随机操作。我不能在这里使用coalesce()，因为在进行重新分区之前，我希望首先有更少的分区。我正在寻找减少分区数量的方法。假设我有一个spark数据帧(包含多个列)划分为10个分区。我需要基于其中一列进行orderBy转换。

浏览 2提问于2017-09-13得票数 1

1回答

写入Parquet/Kafka:线程"dag-scheduler-event-loop“java.lang.OutOfMemoryError异常

scala、out-of-memory、spark-dataframe、apache-spark-mllib、cloudera-cdh

在将数据帧写到parquet或kafka时，我总是会遇到这个问题。我的数据帧有5000行。我的数据帧总大小约为10 My，划分为12个分区。在写入之前，我尝试使用repartition()创建48个分区，但即使我在没有重新分区的情况下写入，也会看到这个问题。

浏览 0提问于2017-09-14得票数 0

1回答

我有两个dask数据帧，它们首先在pandas中被读取，在它们各自的"zo_id“列上建立索引，然后转换成具有4个分区的dask数据帧： drivetimes = pd.read_sql('QUERY1npartitions=4)calc_zones.divisions (623725,629167,634609,640051,645492) 正如您所看到的，这些分区并不对齐，并且当我使用它们各自的<e

浏览 9提问于2020-10-15得票数 1

0回答

如何在Spark scala中对倾斜列上的数据帧进行重新分区？

scala、apache-spark、apache-spark-sql

我有一个数据帧，它有500个分区，并且是随机排列的。我想根据一列重新划分它，比如“城市”，但是城市列是非常不对称的，因为它只有三个可能的值。因此，当我根据列city对进行重新分区时，即使我指定了500个分区，也只有3个分区在获取数据。正因为如此，我遇到了性能问题。我在网上搜索，但找不到任何合适的解决方案。有没有办法在基于city列的分区上对数据帧进行统一的<em

浏览 2提问于2017-06-15得票数 1

回答已采纳

1回答

SQL语句alter index和add partition

sql、oracle

我有一个索引，在这个索引中，我必须删除一列，然后重新建立索引以便重新构建：当我重建一个索引时，可以添加分区吗？分区将基于一个列索引，该列索引是一个日期时间字段。INTERVAL (INTERVAL '15' MINUTE) (PARTITION INITIAL_PARTITION VALUES LE

浏览 0提问于2014-12-19得票数 2

1回答

spark dataframe保存为分区表的速度非常慢

apache-spark

df.write.partitionBy("par").format("orc").saveAsTable("mytable") 大家好，当我将spark数据帧保存为分区的hive表时，过程非常非常慢，

浏览 0提问于2017-09-15得票数 2

2回答

如何在DataFrame中创建唯一的索引？

python、pandas、dataframe、dask、dask-dataframe

我如何为dask数据帧建立一个唯一的索引？reset_index在每个分区中构建一个单调上升的索引。这意味着(0,1,2,3,4,5，.)对于分区1，(0,1,2,3,4,5，.)对于分区2，(0,1,2,3,4,5，.)用于分区3等等。我希望为dataframe中的每一行(跨所有分区)建立唯一的索引。

浏览 0提问于2019-06-06得票数 6

回答已采纳

2回答

拼花文件夹下的一个拼花文件是一个分区吗？

apache-spark、pyspark、apache-spark-sql、parquet、partition

我将我的数据存储为拼花格式在检查HDFS时，我可以看到在parquet目录/my/path下有10部分-xxx.snappy.parquet文件我的问题是:一个部分-xxx.snappy.parquet文件是否对应于我的dataframe分区？

浏览 3提问于2020-03-29得票数 0

回答已采纳

1回答

如何检查我的数据帧中的每个记录大小

apache-spark、apache-spark-sql、databricks

尝试重新划分我的数据帧，以实现并行性。有人建议每个分区的大小应该小于128MB，为了实现这一点，我需要计算我的数据帧中每行的大小。那么，如何计算/查找我的数据帧中的每一行大小？谢谢。

浏览 0提问于2018-12-05得票数 1

1回答

如何设置分区数量不超过可用核数？

apache-spark、apache-spark-sql、sparkcore

我正在寻找一种方法来根据可用内核的大小对应用程序中的所有数据帧进行分区。如果我的可用核心数(执行器的数量*每个执行器的核心数)是20，那么我希望将所有数据帧重新分区为20。我看到的重新划分数据帧的唯一方法是df.repartition(20)，但我希望将其应用于我的应用程序中存在的所有数据帧，而不必为每个数据帧

浏览 13提问于2019-10-29得票数 1

回答已采纳

1回答

如何在没有使用UDF的情况下对Spark SQL结果进行后处理

apache-spark、pyspark、apache-spark-sql、pyspark-sql

session.udf.register('MYFUN', my_fun) 在没有使用UDF的情况下，我可能想要将查询结果保存到Python数据框或hdfs上的Parque表中，然后通过数据帧读取，并逐个处理数据帧

浏览 1提问于2019-03-07得票数 0

3回答

Spark :如何将我的记录均匀地分布在所有分区中

apache-spark

我想将这个RDD重新划分为30个分区，这样每个分区就可以得到一条记录，并被分配给一个executor。当我使用rdd.repartition(30)时，它将我的rdd重新划分为30个分区，但一些分区获得2条记录，一些分区获得1条记录，而另一些则没有任何记录。有没有办法在Spark中我可以均匀地将我的记录分配到所有分区。

浏览 1提问于2015-11-18得票数 5

1回答

对dask数据帧进行重新分区以减少滚动期间的混洗

python、pandas、time-series、dask

我在一家公司工作，该公司需要做一些非常密集的聚合对于他们在过去两年中进行的每一次销售，他们都需要有关销售前一个月的数据的滚动汇总。聚合本身并不重要。这两年的数据大约是550万行。我想我应该使用Dasks滚动函数，为数据帧提供一个数据范围索引。我使用的机器有4个核心，所以我决定对数据使用8个分区，并将其重新分区为8个3个月的分区。然而，有一个问题。这3个分区中每个</e

浏览 16提问于2019-12-20得票数 1

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

scala、apache-spark、apache-spark-sql、apache-spark-sql-repartition

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。假设我调用repartition($"c1")，那么所有的记录会被混洗到同一个分区吗？如果是这样，它不会超过每个分区的最大大小吗？在这种情况下，重新分区是如何工作的？

浏览 34提问于2021-09-23得票数 2

回答已采纳

1回答

如何在Python Dask数据帧中执行位置索引

python、pandas、dataframe、dask

具体地说，使用位置索引将dask数据帧分成测试/训练拆分：test = dfs[-1]train = dfs.loc[:-1]在Dask中使用位置索引的正确方法是什么，以及在随机森林示例中将数据帧分割为测试/训练拆分的正确方法是什么类似悬而未决的问题：编辑:创建指向Pandas

浏览 13提问于2018-02-14得票数 4

1回答

将文件夹中的许多羽化文件加载到dask中

python、pandas、dask、feather

有了一个包含许多.feather文件的文件夹，我想将它们全部加载到python中的dask中。到目前为止，我已经尝试了以下来自GitHub https://github.com/dask/dask/issues/1277上类似问题的答案 files = [...]df = dd.concat(dfs) 不幸的是，这给出了这里提到的错误TypeError: Truth of Delayed objects is not supported，但解决方法并不清楚。是否

浏览 19提问于2019-08-08得票数 2

回答已采纳

2回答

比较简单的查询的性能问题

sql、database、oracle、performance、database-performance

表:约1亿行示例：FROM TABLE NUMBERDD-MM-YYYY') AND TO_DATE('01-01-2015','DD-MM-YYYY') AND当前正在使用的CODE、NUMBER和DATE列上有一个索引还有一个仅针对测试过的NUMBER列的索引，它的性能稍好一些，但查询速度

浏览 0提问于2016-10-25得票数 0

3回答

Spark需要像RDD这样的过滤器后进行重新分区吗？

apache-spark、dataframe、pyspark、rdd

根据大量的资源，建议在过滤操作后重新划分RDD .因为，现在有可能大多数分区是空的。我怀疑如果数据帧是在当前版本中处理的，还是仍然需要在筛选操作之后重新划分它？

浏览 0提问于2018-05-22得票数 2

回答已采纳

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

python、dask

问题: DASK数据帧返回多行的pandas数据帧，每行都有相同的索引：我需要为每一行调用m

浏览 48提问于2019-06-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云