Spark monotonically_increasing_id()为所有分区提供连续的ids

、、

我在Spark中有一个数据帧df，它看起来像这样： val df = (1 to 10).toList.toDF() 当我检查分区的数量时，我看到有10个分区： df.rdd.getNumPartitions|| 5| 4|| 7| 6|| 9| 8|+-----+---+ 所以所有生成的ids都是连续的，

浏览 105提问于2021-04-22得票数 1

2回答

从Python列表中向PySpark DataFrame添加一个新列

、、、

我有一份清单：我试图将它添加到的数据文件长度相同(没有问题)。

浏览 13提问于2019-11-13得票数 4

回答已采纳

1回答

Spark -读取单个CSV文件，处理结果并将结果写入单个CSV文件，同时保持原始行顺序

、

我想从Spark读取一个CSV文件(小于50MB)，并执行一些连接和过滤操作。CSV文件中的行按某些条件排序(在本例中为Score)。我希望将结果保存在单个CSV文件中，其中保留了原始行的顺序。输入CSV文件： Id, Score3, 997, 95 在执行一些联接和筛选操作后： val data = spark.read.option("header", "true预期输出： Id, Score6, 98 (ID 3和7被过滤掉

浏览 77提问于2020-10-05得票数 0

回答已采纳

1回答

使用从现有数据帧中选择的某些行集形成新的spark数据帧

、、、、

我有一个具有10^8行数的spark数据帧df。我已经在该数据帧上添加了一列，作为rowId，我希望将其用作主键。我使用下面的命令做了同样的事情现在，我想从该数据帧中选择一个新的数据帧，其中包含一些选定的行数，我已经知道这些行的索引是以列表的形式存在的。如果有人能帮助我用列表中选定的行数形成

浏览 0提问于2017-10-28得票数 0

1回答

如何在pySpark数据仓库中添加行id

、、、

我有一个csv文件；我将该文件转换为DataFrame(df)；经过一些转换；我希望在df中添加一个列；它应该是简单的行id (从0或1开始到N)。我将生成的rdd转换回df。这种方法可以工作，但是它产生了250 k任务，执行起来花费了很多时间。我想知道是否有其他方法可以减少运行时。下面是我的代码片段；我正在处理的csv文件很大；包含数十亿行。

浏览 16提问于2015-08-19得票数 28

1回答

从1重置monotonically_increasing_id

、、、

但是我发现函数monotonically_increasing_id仍然会从原始数据中定义行号。rowid for the two subframesset2= splits[1].withColumn("rowid", monotonically_increasing_id()) set1.select("row

浏览 12提问于2017-09-11得票数 0

回答已采纳

2回答

如何在不遇到OOM的情况下在Apache Spark中进行总排序？

、、

我需要我的数据帧有一个等级id，基于分数，一个简单的row_number() over ()(按分数排序)，因为rank_id给了我一个OOM，因为所有数据都收集到一台机器上。例如：monotonically_increasing_id()也不会产生我想要的东西，因为我需要连续的等级ids。同

浏览 0提问于2020-03-21得票数 0

1回答

如何为PySpark数据框添加具有唯一row_id的列，该数据框从前面运行的代码中的最大值( row_id ) +1开始row_id

、、

我使用下面的代码创建了一个具有唯一row_id的新列，但是每次运行代码时，row_id都是从0开始的。我希望row_id从上一次代码运行的最高row_id开始。new_raw_df = raw_df.withColumn("id", monotonically_increasing_id

浏览 0提问于2020-01-09得票数 0

2回答

如何将运行中的Id新列添加到星火数据帧(吡火花)

、、

2017 11:00 031/01/2017 13:00 231/01/2017 15:00 11并希望添加一个新的Id列--只是一个这样的运行编号：+----------------+---+---------++---------------01-31 13:00| 2| 4| |2017-01-31

浏览 5提问于2017-02-13得票数 2

回答已采纳

2回答

如何为现有表生成行号作为列？

、、、

我希望将行号(row_num)创建为MySql中现有表的列，通过spark并行读取数据库(即分区列，因为表中的所有列都是字符串)。(ParseDriver.scala:197)at org.apache.spark.sql.execution.SparkSqlParser.pars

浏览 8提问于2017-10-16得票数 0

回答已采纳

2回答

将行索引添加到pyspark (添加新列/并排连接数据格式)

、、

关于的描述，它说： "monotonically_increasing_id() -返回单调增加的64位整数。生成的ID保证是单调增加的，唯一的，但不是连续的。当前的实现将分区ID放在上31位，下33位表示每个分区内的记录数。假设数据帧有不到10亿个分区，每个分区的记录少于80亿条。该函数不确定，因为它的</e

浏览 0提问于2019-03-26得票数 0

2回答

如何将数据按批次保存在“火花”中？

、、

我试图使用以下代码将数据分割成块：id1 = 0df = df.withColumn('id_tmp', F.monotonically_increasing_id())while id1 < c: .mode('overwrit

浏览 7提问于2022-02-06得票数 1

1回答

关于非确定性表达式的重新划分

、、

我想写这样的代码：这段代码会因为重新分区中的非确定性表达式而破坏某些东西吗据我所知，这段代码将变成确定性的HashPartitioning。提醒我的是，星火在应用RoundRobin分区之前在内部对分区进行排序，因为它的非确定性性质。动机:我希望我的DF被重组成更大的</

浏览 9提问于2022-10-28得票数 0

回答已采纳

1回答

PySpark添加Id列&筛选器已损坏

、

我已经为"index“添加了一个"id”列。from pyspark.sql.functions import monotonically_increasing_id我执行下面的代码，期望看到返回5行，其中id与计数为5的"indices“列表匹配。indices = [1000, 999, 45, 100

浏览 0提问于2019-08-24得票数 0

3回答

我们可以为Spark中的行提供一个序列Id吗？

、

我是spark的新手，我在数据文件中有大约10000行要读取 .builder()getOrCreate(); 我有一个向数据集中的每一行添加行号的用例，行号应该从1到10000开始(因为文件有1

浏览 2提问于2020-05-28得票数 0

3回答

在scala中从CSV文件加载时，我需要从dataframe跳过三行

、、

我正在将我的CSV文件加载到一个数据框架中，我可以这样做，但是我需要跳过文件中开始的三行。 .schema(Myschema) .option("delimiter替代思想:跳过数据框架中的这3行请帮我处理这个。提前谢谢。

浏览 0提问于2019-05-28得票数 3

回答已采纳

3回答

火花累加器值不递增

、、、、

最近我一直在研究星火数据集，我有一个场景，必须为每一行生成行号，并将其存储在一个名为“Ids”的列中。并根据数据集中的行数递增。, Finance , abcJoe, Marketing , xyzname , dept , project ,IdsTina, Finan

浏览 0提问于2019-03-16得票数 1

回答已采纳

2回答

如何删除dataframe Scala/sSark中的前几行？

、

这是我的输入：|value|| 1|| 3|| 4|-------+---

浏览 0提问于2017-07-26得票数 4

2回答

GroupBy搞乱了顺序，我得到了不正确的结果

、

因为有许多不同的app_ids和国家。--每个advertiser_ids和country_code的列表。不正确(我得到的)|app_id|country_code|recommended_advertiser_ids更新：我通过恢复到我的原始代码来修复它。那么问题是如何从排名中选出最高的n(每个组的topN)？

浏览 2提问于2020-07-26得票数 0

回答已采纳

4回答

Apache Spark的主键

、、、

我有一个与Apache Spark和PostgreSQL的JDBC连接，我想将一些数据插入到我的数据库中。当我使用append模式时，我需要为每个DataFrame.Row指定id。有没有办法让Spark创建主键？

浏览 2提问于2015-10-13得票数 33

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Python列表中向PySpark DataFrame添加一个新列

Spark -读取单个CSV文件，处理结果并将结果写入单个CSV文件，同时保持原始行顺序

使用从现有数据帧中选择的某些行集形成新的spark数据帧

如何在pySpark数据仓库中添加行id

从1重置monotonically_increasing_id

如何在不遇到OOM的情况下在Apache Spark中进行总排序？

如何为PySpark数据框添加具有唯一row_id的列，该数据框从前面运行的代码中的最大值( row_id ) +1开始row_id

如何将运行中的Id新列添加到星火数据帧(吡火花)

如何为现有表生成行号作为列？

将行索引添加到pyspark (添加新列/并排连接数据格式)

如何将数据按批次保存在“火花”中？

关于非确定性表达式的重新划分

PySpark添加Id列&筛选器已损坏

我们可以为Spark中的行提供一个序列Id吗？

在scala中从CSV文件加载时，我需要从dataframe跳过三行

火花累加器值不递增

如何删除dataframe Scala/sSark中的前几行？

GroupBy搞乱了顺序，我得到了不正确的结果

Apache Spark的主键

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐