Pyspark -列表聚合后monotonically_increasing_id的索引更改_聚合数据帧操作后的Pyspark冻结_Pyspark 1.6 -使用多个聚合透视后的别名列 - 腾讯云开发者社区

、、、

来自类似于PySpark SQL数据文件的 name age city abc 20 A def 30 B 如何获得最后一行。(就像df.limit(1)一样，我可以将第一行数据last转换为新的数据格式)。以及如何通过第12或200号index.like行访问数据行。在熊猫里我能做到 df.tail(1) # for last row df.ix[rowno or index] # by index df.loc[] or by df.iloc[] 我只是好奇如何以这样的方式或替代的方式访问pyspark。谢谢

浏览 7提问于2016-09-17得票数 16

回答已采纳

1回答

Spark 2.0 - pyspark2数据帧--“唯一标识生成”

、、、、

将spark 2.0与pyspark一起使用。源表在配置单元中，目标表在配置单元中在目标表中，希望创建唯一的row_ids，它将是唯一递增的，并且不应重复。示例代码 SourceDf=Spark.sql ("""select * from table""") SouceDf.registerastemptable (souceDf) Spark.sql (insert into targettable select Rowid, a.col1, a.col2....from sourceDf ) 如何做到这一点呢？

浏览 0提问于2018-06-15得票数 0

1回答

Spark:以行列表的形式获取groupBy输出

、、、

在spark中使用group by时，是否可以获取Dataset<List<Row>> 作为输出。这里的row是原始行。 Dataset<<List<Row>> output = dataset.groupBy("key"); 如果使用聚合，并且collect_list随后在输出行中，则不能保证列表格式的值是有序的。因此，在我的情况下，这不是一个好的解决方案。例如:带聚合的输出。但是不能保证设置值中的顺序。 +-----+----------------------------+ |item1|set

浏览 19提问于2019-07-25得票数 1

1回答

火花/数据库:如何知道插入后的最新标识值？

、、

我正在使用PySpark insert into命令在Databricks表上写作。据我所知，没有scope_identity和IDENT_CURRENT。如何在insert into命令之后检查最新的id增量？

浏览 9提问于2022-05-30得票数 1

2回答

有没有办法在pyspark中逐个访问数组(Struct)中的多个JSON对象

、、、、

我对pyspark和json解析还是个新手，我被困在了某些特定的场景中。让我先解释一下我要做什么，我有一个json文件，其中有一个数据元素，这个数据元素是一个包含另外两个json对象的数组。给定的json文件如下所示 { "id": "da20d14c.92ba6", "type": "Data Transformation Node", "name": "", "topic": "", "x": 380,

浏览 142提问于2019-06-05得票数 0

回答已采纳

1回答

不确定如何将以下X行的和分配给现有的行值

、、、

最好的解释方法就是以身作则。在本例中，我们将使用接下来的两行：原件： ID val 1 2 1 3 1 1 1 9 2 1 2 6 2 8 2 1 更新版本： ID sum_val 1 4 1 10 1 9 1 0 2 14 2 9 2 1 2 0 我在PySpark工作，因为我的数据集相当大。我是PySpark的新手，所以我很难做到这一点。任何帮助都将不胜感激。

浏览 0提问于2018-04-19得票数 1

回答已采纳

1回答

如何获取row_number is pyspark数据帧

、、、

为了排名，我需要让row_number是一个pyspark数据帧。我看到在pyspark的窗口函数中有row_number函数，但这是使用HiveContext所必需的。我尝试用HiveContext替换sqlContext import pyspark self.sc = pyspark.SparkContext() #self.sqlContext = pyspark.sql.SQLContext(self.sc) self.sqlContext = pyspark.sql.HiveContext(self.sc) 但是它现

浏览 0提问于2016-10-30得票数 2

1回答

根据列表的长度与dataframe的行数相同的列表，生成列。

、、、

我有一个现有的，它有170列和841行。我想添加另一列，这是一个‘字符串’的列表。列表的长度为841，名称为，总计为 >>> totals ['165024392279', '672183', '1002643', '202292', '216254163906', '4698279464', '9247442818', '60093051178', '22208366804', '994475', '12

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

使用Spark structured streaming仅保留最新数据

、、、

我像这样流式传输数据：time，id，value我只想用最新的value为每个id保留一条记录。解决这个问题的最好方法是什么？更喜欢使用Pyspark

浏览 23提问于2021-09-22得票数 1

1回答

PySpark DataFrame写入空(零字节)文件

、、

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。 ### code.py ### from pyspark.sql import SparkSession from pyspark.sql import functions as

浏览 8提问于2022-05-11得票数 1

1回答

如何创建行号为的列

我需要创建一个具有每个行的行号的pyspark列。我是monotonically_increasing_id函数，但有时它会生成非常大的值。我如何生成一个列，该列的值从1开始到我的dataframe的大小？ top_seller_elast_df = top_seller_elast_df.withColumn("rank", F.monotonically_increasing_id() + 1)

浏览 8提问于2020-08-20得票数 1

回答已采纳

1回答

在pyspark替代方案中使用df.tail()？

、、

我需要通过PySpark比较一个大文件的数据。为此，我使用了head()和tail()语句，但它们都返回相同的数据，这是不正确的…… 要查看数据文件的这两个部分，还有什么其他选择？

浏览 27提问于2021-10-26得票数 0

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

、、、

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中 from pyspark.sql.functions import monotonically_increasing_id as mi id=mi() df1 = df1.withColumn("match_id", id) cont_data = cont_data.withColumn("match_id", id) cont_data = cont_data.join(df1,df1.ma

浏览 2提问于2017-06-03得票数 1

2回答

如何在PySpark中求数组的平均值

、、、、

我有一个PySpark Dataframe，其中一个列(比如B)是一个数组。以下是PySpark数据文件： +---+-----------------------------+---+ |A |B |C | +---+-----------------------------+---+ |a |[[5.0], [25.0, 25.0], [40.0]]|c | |a |[[5.0], [20.0, 80.0]] |d | |a |[[5.0], [25.0, 75.0]] |e | |b |[

浏览 11提问于2019-12-10得票数 0

回答已采纳

1回答

存储在dataframe中的结构化流数据

、、

我有以下表格的火花数据格式： from pyspark.sql.functions import * from pyspark.sql.types import * schema_sdf_consistent = StructType([ StructField("A", DoubleType(), True), StructField("B", DoubleType(), True), StructField("C", DoubleType(), True), ]) sdf_consistent

浏览 2提问于2022-05-26得票数 0

3回答

从另一个DataFrame添加列

、、

在Scala Spark中，我可以轻松地将列添加到现有的Dataframe编写中 val newDf = df.withColumn("date_min", anotherDf("date_min")) 在PySpark中这样做会产生一个AnalysisException。下面是我正在做的事情： minDf.show(5) maxDf.show(5) +--------------------+ | date_min| +--------------------+ |2016-11-01 10:50:...| |2016-11-01 11

浏览 42提问于2017-03-17得票数 18

1回答

如何向保证惟一ID的PySpark DataFrame中添加新行？

、、、

我有两个希望连接的PySpark DataFrame对象。其中一个DataFrames df_a有一个使用pyspark.sql.functions.monotonically_increasing_id()派生的列unique_id。另一个DataFrame，df_b没有。我希望将df_b的行附加到df_a，但我需要为unique_id列生成与df_a.unique_id中的任何值不一致的值。 df_a = spark.createDataFrame( [ (1, "a", 42949672960), (2, "b",

浏览 3提问于2022-09-08得票数 0

回答已采纳

1回答

如何为PySpark数据框添加具有唯一row_id的列，该数据框从前面运行的代码中的最大值( row_id ) +1开始row_id

、、

我使用下面的代码创建了一个具有唯一row_id的新列，但是每次运行代码时，row_id都是从0开始的。我希望row_id从上一次代码运行的最高row_id开始。请帮帮我！ from pyspark.sql.functions import monotonically_increasing_id new_raw_df = raw_df.withColumn("id", monotonically_increasing_id())

浏览 0提问于2020-01-09得票数 0

1回答

如何删除“缺少转换属性错误”？

、、、

我正在编写一个在palantir中使用pyspark的代码，我有这个错误，我无法弄清楚。错误是： A TransformInput object does not have an attribute withColumn. Please check the spelling and/or the datatype of the object. 我的代码供您参考 import pyspark.sql.functions as F import pyspark.sql.types as T from pyspark.sql.functions import when from transfor

浏览 5提问于2022-09-17得票数 2

回答已采纳

1回答

使用窗口操作替换所有列值？

、、、

嗨数据框架创建如下所示。 df = sc.parallelize([ (1, 3), (2, 3), (3, 2), (4,2), (1, 3) ]).toDF(["id",'t']) 如下所示。 +---+---+ | id| t| +---+---+ | 1| 3| | 2| 3| | 3| 2| | 4| 2| | 1| 3| +---+---+ 我的主要目标是，我想用重复的次数替换每一列中的重复值。因此，我已经尝试了流畅的代码，它并不像预期的那样工作。 from pyspark.sql.f

浏览 2提问于2018-11-02得票数 1

回答已采纳

1回答

Spark生成发生矩阵

、、

我有如下所示的输入事务 apples,mangos,eggs milk,oranges,eggs milk, cereals mango,apples 我必须像这样生成一个共现矩阵的Spark数据帧。 apple mango milk cereals eggs apple 2 2 0 0 1 mango 2 2 0 0 1 milk 0 0 2 1 1 cereals 0 0 1 1 0 eggs 1

浏览 11提问于2018-02-01得票数 4

回答已采纳

1回答

在DataFrame中实现自动增量列

、、

我试图在DataFrame中实现一个自动增量列。我已经找到了一个解决方案，但我想知道是否有更好的方法来做到这一点。我使用的是来自monotonically_increasing_id()的pyspark.sql.functions函数。问题是从0开始，我希望从1开始。因此，我做了以下工作，并且工作得很好： (F.monotonically_increasing_id()+1).alias("songplay_id") dfLog.join(dfSong, (dfSong.artist_name == dfLog.artist) & (dfSong.title ==

浏览 0提问于2019-04-26得票数 2

回答已采纳

5回答

PySpark DataFrames -不转换为Pandas的枚举方式？

、、、、

我有一个很大的pyspark.sql.dataframe.DataFrame，名为df。我需要某种方法来枚举记录--因此，能够使用特定的索引访问记录。(或选择一组具有索引范围的记录) 在熊猫里，我可以 indexes=[2,3,6,7] df[indexes] 在这里，我想要类似的东西(而且不把数据转换成熊猫)。我能找到的最接近的是：通过以下方法枚举原始数据中的所有对象： indexes=np.arange(df.count()) df_indexed=df.withColumn(索引，索引) - Searching for values I need using wher

浏览 6提问于2015-09-24得票数 20

回答已采纳

1回答

将三个数据帧列合并为单个数据帧

在pyspark中，我创建了三个数据帧: B1、P1和C1。 Dataframe: B1 has five columns (B_Num, B_Tin, B_Light, B_Dark, and B_White) Dataframe: P1 has three columns(P_Prov, P_Tip, and P_Bye) Datafram: C1 has three columns(C_Cust, C_Addr1, and C_Addr2) 我试着把三个数据帧联合起来。它工作得很好我不想这么做。 B1 = B1.withColumn("i

浏览 1提问于2019-08-22得票数 1

4回答

如何在Pyspark中按列连接/追加多个Spark数据帧？

、、、、

如何使用Pyspark dataframe实现pd.concat(df1，df2，axis='columns')的pandas等效项？我用谷歌搜索了一下，找不到一个好的解决方案。 DF1 var1 3 4 5 DF2 var2 var3 23 31 44 45 52 53 Expected output dataframe var1 var2 var3 3 23 31 4

浏览 41提问于2017-06-02得票数 5

回答已采纳

2回答

根据当前行和前一行中的列创建计算列

、、

我有复杂的逻辑要实现，尝试了一段时间，但仍然没有线索，请帮助检查它是否现实的做法和如何做。非常感谢！！我有以下SparkSQL数据格式(datetime在增加，'type‘是重复出现的，每个部分(不同类型)总是以'flag'=1开头，)： +---------+-----+----+-----+ |datetime |type |flag|value| +---------+-----+----+-----+ |20170901 |A |1 | 560| |20170902 |A |0 | 3456| |20170903 |A |0 |

浏览 3提问于2017-10-09得票数 2

回答已采纳

1回答

使用从现有数据帧中选择的某些行集形成新的spark数据帧

、、、、

我有一个具有10^8行数的spark数据帧df。我已经在该数据帧上添加了一列，作为rowId，我希望将其用作主键。我使用下面的命令做了同样的事情 df.withColumn("rowId"，monotonically_increasing_id()) 现在，我想从该数据帧中选择一个新的数据帧，其中包含一些选定的行数，我已经知道这些行的索引是以列表的形式存在的。如果有人能帮助我用列表中选定的行数形成一个新的数据框，那将对我很有帮助。

浏览 0提问于2017-10-28得票数 0

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。 id使用nextval('my_sequence')从序列中获取其值。 PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence')")) Postgres将该列解释

浏览 0提问于2018-01-21得票数 2

回答已采纳

7回答

PySpark -从值列表中添加列

、、、、

我必须根据一个值列表将列添加到PySpark数据。 a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) 我有一个名为“等级”的列表，它是对每只宠物的评价。 rating = [5,4,1] 我需要在dataframe后面加上一个名为that的列，这样 +------+-----+------+ |Animal|Enemy|Rat

浏览 13提问于2018-01-09得票数 16

回答已采纳

1回答

来自列表类型的两个数据帧列的pyspark交叉点

、、、、

我有一个带有位置列的数据帧，每个单元格都包含country_name的列表，我想从这两列中找到公共的country_name，并将其添加到pyspark中的输出dataframe.....coding中..... df_input = spark.createDataFrame([ (100001,12301, 'India', ['India', 'USA','Germany']), (100002, 12302, 'Germany', ['India', 'UK','G

浏览 1提问于2018-08-29得票数 0

2回答

获取数组中最常用的元素，使用Pyspark

、、

如何获得数组中最常见的元素，在使用Pyspark连接两列之后 df = spark.createDataFrame([ [['a','a','b'],['a']], [['c','d','d'],['']], [['e'],['e','f']], [[''],['']] ]).toDF("arr_1","arr2") df_new = df

浏览 5提问于2020-08-03得票数 1

回答已采纳

1回答

pyspark中的不一致结果

、、、、

重复运行以下代码会产生不一致的结果。到目前为止，我只看到了两个输出。在切换到其他结果之前，结果会重复任意随机次数，然后在再次切换回之前，这些结果也会重复任意随机次数。为什么会发生这种情况？在这个示例中，我可以使用索引窗口函数并在使用%修改单个列之前包含一个orderBy()，但我的实际示例中，我没有这个选项，所以这不是一个适合我的解决方案。 import pyspark spark = pyspark.sql.SparkSession.builder.getOrCreate() import pyspark.sql.functions as F from pyspark.sql.wind

浏览 1提问于2018-03-02得票数 1

2回答

化工厂重组数据与出口

我尝试了这里显示的另一种方法：，它不适用于我的数据帧。我有一个数据文件，如下所示： Attribute Values ID Brand Model -------------------------------------------- Colour Red 1 Sony xyz Energy F 2 Samsung abc Year 2020 1 Sony xyz Energy C 1 Sony xyz Colou

浏览 5提问于2022-07-16得票数 0

1回答

pyspark组和拆分数据帧

、、

我正在尝试筛选数据集，然后将其拆分成两个单独的文件。 Dataset: test.txt (模式: uid，prod，score) 1 XYZ 2.0 2 ABC 0.5 1 PQR 1.0 2 XYZ 2.1 3 PQR 0.5 1 ABC 0.5 首先，我想过滤所有小于或等于1产品的uid。我已经通过下面的代码实现了这一点。 from pyspark.sql.types import * from pyspark.sql.functions import * rdd = sc.textFile('test.txt').map(lambda row:

浏览 0提问于2016-08-11得票数 0

2回答

PySpark数据减法

假设我有两个PySpark数据格式， df1 +-----+ |count| +-----+ | 100| | 200| | 300| df2 +-----+ |count| +-----+ | 300| | 400| | 500| 在不使用Pandas的情况下，我应该如何计算df2 - df1，如下所示？ +-----+ |count| +-----+ | 200| | 200| | 200|

浏览 1提问于2022-07-14得票数 0

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

将较长的列追加到spark dataframe

、

假设我有一个长度为X的dataframe，并且我想添加一个包含来自文件的值的列，这意味着它可以比当前的dataframe更长或更短。两种方法中缺少的两种方法都应该由空值来填充。例如： +-----------+---+----+----------+ | Jack|Jan|Alex| Alexander| +-----------+---+----+----------+ | 2342342342| 41| 234|1459204800| | 2348972342| 22| 2|1459294200| | 1234342342| 31|

浏览 6提问于2018-02-13得票数 0

回答已采纳

1回答

PySpark:根据之前的值更改数据帧内的列值

、、

我想使用pyspark创建日期间隔(日期+/-10天)，并根据日期和以前的间隔更改它们。如果新日期在给定id的计算间隔之外，则将计算新的间隔，否则将设置该间隔。例如:初始数据帧： |id|date| |a|2019-02-14| |a|2019-02-14| |a|2019-01-11| |a|2019-01-14| |a|2019-01-16| |a|2019-01-22| |b|2019-01-25| |b|2019-02-10| |b|2019-02

浏览 0提问于2019-07-22得票数 0

1回答

将贴图列表保存到csv pyspark

、、、

我有一个类似于下面的数据帧 new_df = spark.createDataFrame([ ([{'product_code': '12', 'color': 'red'}, {'product_code': '212', 'color': 'white'}], 7), ([{'product_code': '1112', 'color': 'black'}], 8), ([{'product_

浏览 1提问于2018-01-29得票数 3

回答已采纳

4回答

在dataframe中添加一列，其中包含从1到n的值

我正在使用pyspark创建一个数据帧，如下所示： +----+------+ | k| v| +----+------+ |key1|value1| |key1|value1| |key1|value1| |key2|value1| |key2|value1| |key2|value1| +----+------+ 我想使用'withColumn‘方法添加一个'rowNum’列，dataframe的结果如下所示： +----+------+------+ | k| v|rowNum| +----+------+------+ |key1|value1|

浏览 0提问于2017-03-09得票数 6

2回答

PySpark中的系统采样

、

我对PySpark非常陌生，我一直在努力寻找我正在寻找的答案。我有大量的家庭样本，我想进行系统的抽样。就像真正的系统抽样一样，我想从一个随机的起点开始，然后定期选择一个家庭(例如每50个家庭)。我研究了sample()和sampleBy()，但我不认为这些正是我所需要的。有人能给我什么建议吗？非常感谢您的帮助！

浏览 1提问于2022-04-08得票数 0

回答已采纳

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_1： Table_2：期望的结果：从本质上讲，我知道SQL查询可以做spark.sql(“查询”)等任何事情。我尝试了几种在spark环境下不起作用的方法。谢谢!

浏览 1提问于2020-08-08得票数 2

1回答

以行对象格式访问数组的元素并将它们连接起来- pySpark

、

我有一个pyspark.sql.dataframe.DataFrame，其中一个列有一个Row对象数组： +------------------------------------------------------------------------------------------------+ |column | +----------------------------------------------------

浏览 1提问于2019-12-17得票数 0

2回答

使用SparkVersion2.2的PySpark ()函数在DataFrame中创建每个行的行号

、、、、

我有一个PySpark DataFrame - valuesCol = [('Sweden',31),('Norway',62),('Iceland',13),('Finland',24),('Denmark',52)] df = sqlContext.createDataFrame(valuesCol,['name','id']) +-------+---+ | name| id| +-------+---+ | Sweden| 31| | Norway| 62| |Icela

浏览 1提问于2018-10-29得票数 17

回答已采纳

1回答

统计SPARKSQL中的重复行数

、、、

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

PySpark中是否有相当于Pandas聚合函数的任何函数？

、、、

我想把下面的熊猫代码翻译成PySpark代码 pd_df.groupby(['colA']).agg(newCol1 = ('colB', 'count'), newCol2 = ('colC', 'mean')) newCol3 = ('colD', 'any')).reset_index() 等效的PySpark代码将是 import pyspark.sql.funct

浏览 5提问于2019-11-25得票数 0

回答已采纳

1回答

先更改n行

、、

我有一个dataframe，我想添加另一个列，对于前n行是一个值，其余的是另一列中的值.像这样的东西 frame.select("*") .withColumn("newColumn", if(row number < 5) "hello, world" else col("someth_else"))

浏览 2提问于2017-03-16得票数 0

回答已采纳

1回答

如何使用PySpark JDBC连接器在Postgres上远程执行Postgres函数？

、、、、

我想使用PySpark应用程序在远程Postgres服务器上使用执行以下查询 SELECT id, postgres_function(some_column) FROM my_database GROUP BY id 问题是，我不能使用spark.sql(QUERY)对Pyspark执行这种查询，很明显，因为postgres_function不是ANSI函数。我用的是星火2.0.1和Postgres 9.4。

浏览 3提问于2016-11-25得票数 0

回答已采纳

1回答

计算具有结构列类型的PySpark数据框中的空值或零

、、

我有一个混合了整数列、字符串列和结构列的PySpark数据框架。结构列可以是结构，但也可以只是null。例如： id | mystring | mystruct | -------------------------- 1 | something | <struct>| 2 | something | null | 3 | 0 | null | 4 | something | null | 5 | something | <struct> | 有没有什么简单的方法可以遍历整个数据帧并获得null/na/0值的

浏览 0提问于2021-11-27得票数 0

10回答

星星之火:通过在两个数据文件上添加行索引/数字来合并2个数据格式

、、

问:在PySpark中，有什么方法可以合并两个数据文件或将数据文件的一个列复制到另一个吗？例如，我有两个Dataframes： DF1 C1 C2 23397414 20875.7353 5213970 20497.5582 41323308 20935.7956 123276113 18884.0477

浏览 4提问于2016-11-09得票数 14

回答已采纳