在PySpark GroupBy中从两列创建JSON字符串_在PySpark数据帧上的两组列中创建字典列_Pyspark:如何通过在两列中交叉信息来创建表？ - 腾讯云开发者社区

python、json、pyspark

值分组到一个list of dict中，并将该列表作为JSON字符串转储，这样我就可以将数据帧保存到磁盘。的使用还是个新手，而且我在弄清楚如何得到这个结果时遇到了很多麻烦。我几乎肯定需要一个groupBy，并且我尝试通过创建一个名为"json“的新StringType列来实现它，然后使用pandas_udf装饰器，但是我得到了关于不可散列的错误，因为我发现，我访问数据的方式是访问整个列) ..: def t

浏览 30提问于2019-02-18得票数 1

回答已采纳

1回答

Dataframe中新列的PySpark 1.5组和

python、sql、apache-spark、pyspark、apache-spark-sql

我试图使用groupBy和sum (使用PySpark 1.5)在中创建一个新列(“PySpark”)。我的数字列已被转换为长列或双列。用来形成groupBy的列是字符串和时间戳。我的代码如下我对错

浏览 2提问于2016-03-07得票数 2

回答已采纳

1回答

如何基于PySpark列将PySpark数据列转换为字典列表

arrays、dataframe、apache-spark、dictionary、pyspark

我正在将dataframe列转换为字典列表。Input dataframe有3列：1 100 IN2 300 DD类似地，对于ID "2“，应该有一个一行，其中有两个带有键值对的字典我试过这个： Df1 = df.groupBy(&

浏览 14提问于2022-10-04得票数 0

回答已采纳

1回答

Pyspark Groupby创建列

python、apache-spark、pyspark、group-by

在Pyspark中，我需要按ID分组并创建四个新列(min，max，std，ave)。from pyspark.sql import functions as F df = df.groupby(&q

浏览 23提问于2020-09-22得票数 1

回答已采纳

1回答

使用两个PySpark列通过GroupBy创建JSON字符串

python、json、dataframe、pyspark、group-by

我想要创建一个列'new_col‘，它按除'Code’和'Department‘以外的所有列分组，并根据'Code’和'Department‘列分配一个JSON结构。需要首先对数据进行排序。除了“代码”和“部门”列外，行1-3和4-5是重复的.因此，我希望为前3行创建new_col作为{“代码”："A“、”部门“：”百货公司“}、{”代码“："B”、“部门”：“所有其他供应商”}、{“代码

浏览 3提问于2022-04-25得票数 1

回答已采纳

1回答

从字符串列中提取每个不同的单词，并将它们放入新的dataframe中。

python、dataframe、apache-spark、pyspark

我正试图在中找到列中的所有字符串。输入df： 1 "book bike car"我需要输出df，比如：( word_index值是自动增量索引，"val_new“中的值顺序是随机的val_new word_index car 2 book 4 import pyspark.sql.functions a

浏览 6提问于2020-11-09得票数 1

回答已采纳

2回答

从json模式表示创建spark数据帧模式

apache-spark、apache-spark-sql

有没有办法将数据帧模式序列化为json，并在以后反序列化它？用例很简单:我有一个json配置文件，其中包含我需要读取的数据帧的模式。我希望能够从现有模式(在dataframe中)创建默认配置，并且能够通过从json字符串中读取相关模式来生成稍后使用的相关模式。

浏览 1提问于2016-12-04得票数 30

回答已采纳

1回答

为每个组创建顺序唯一id

apache-spark、pyspark、grouping、unique、window-functions

我试图为下面的代码段()找到一个等价的值，以便从PySpark中的两列创建唯一的id到每个唯一的组合。熊猫方法：我尝试了以下方法，但它创建的I比所需的要多： df = df.withColumn

浏览 4提问于2022-08-29得票数 0

回答已采纳

2回答

使用来自另一个dataframe的JSON对象创建新的数据

python、json、pandas、dataframe、pyspark

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.json_object[

浏览 4提问于2022-10-19得票数 1

回答已采纳

3回答

从数据帧中获取价值

python、pyspark、type-conversion、apache-spark-sql

在Scala中，我可以使用get(#)或getAs[Type](#)从数据帧中获取值。在pyspark中我应该怎么做呢？我有一个两列的DataFrame：item(string)和salesNum(integers)。我做了一个groupby和mean来获得这些数字的平均值，如下所示：而且

浏览 2提问于2016-06-28得票数 21

回答已采纳

2回答

从Spark GroupedData对象中选择随机项目

python、python-2.7、apache-spark、apache-spark-sql

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许

浏览 0提问于2015-11-17得票数 21

回答已采纳

9回答

PySpark -对数据格式中的列进行求和，并以int形式返回结果

python、dataframe、sum、pyspark

我有一列数字的电火花数据。我需要对该列进行求和，然后在python变量中将结果作为int返回。df.groupBy().sum()|sum(Number)|| 130|我会把130作为一个int返回到一个变量中，以便在程序中的其他地方使用

浏览 22提问于2017-12-14得票数 56

回答已采纳

1回答

Pyspark:如何将行分组为N个组？

pyspark

我在pyspark脚本中执行df.groupBy().apply()，并希望创建一个自定义列，该列将我的所有行分组到N(尽可能均匀，所以行/n)组中。我如何使用pyspark来做这件事？

浏览 32提问于2020-07-21得票数 0

回答已采纳

1回答

将数组窗体(以字符串形式)转换为“火花”中的列

arrays、pyspark、pivot

BQ': '1', 'IN': '5'}|501|1 |5 |但是，ESTRUC_COMP是一个字符串

浏览 0提问于2018-07-30得票数 0

回答已采纳

3回答

将JSON数组分解成行

json、apache-spark、pyspark、explode、convertfrom-json

我有一个dataframe，它有两个列"ID“和"input_array”(值是JSON数组)。2 [ {“A”: 800, “B”: 900} ]ID A B1 500 600我试过from_json但是数组列的数据类型不匹配错误正在出现。在图像中，第一个数据是我需要读取并转换为第二个数据的输入数据。需要将3行输入转换为5行输出。

浏览 13提问于2022-10-05得票数 -1

回答已采纳

3回答

pyspark dataframe如果列不存在，则添加该列

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我在不同的json文件中有json数据，键可以在行中不同，例如{"a":1 , "b":"abc2", "d":"abc"} {"a":1 ,"b":&quo

浏览 0提问于2017-03-01得票数 17

回答已采纳

2回答

如何在pyspark中在groupby之后进行条件聚合？

apache-spark、pyspark

我试图根据pyspark数据格式中的ID列对列进行分组，并根据另一列的值对列进行求和。对于sales，我知道可以这样做：df = df.groupBy("ID").agg(F.sum("amount").alias

浏览 1提问于2019-06-13得票数 0

回答已采纳

2回答

分组spark数据帧上的最大聚合返回错误的值

apache-spark、pyspark、apache-spark-sql

我有一个包含2列(CPID和PluginDuration)的spark数据帧。我需要找到数据帧中每个CPID的最大pluginDuration和平均pluginDuration。AN04773| 13.03444444||AN04773| 20.50027778| +-------+--------------+ 当我在dataframe的PID列上执行groupBy以查找如下所示的max和avg插件持续时间时，我发现某些PID返回的最大值并不像预期的那样。例如，

浏览 47提问于2021-11-01得票数 1

回答已采纳

2回答

有没有办法在Pyspark中动态猜测模式？

python、arrays、python-3.x、apache-spark、pyspark

我在Databricks中有一个表，其中有一个列作为字符串字典，如下所示- +---+---------------------------------------------------------我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType schema = StructT

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答