Pyspark -避免使用explode

from pyspark.sql import SparkSessionfrom pyspark.sql import Rowfrom pyspark.sql.functions import * from functools import reducedef explode_outer(df, columns_to_explode

浏览 2提问于2018-07-05得票数 2

1回答

数据库中的枢轴问题

、

我有一个具有值的dataframe表：00 Russian Digestion;Destillationid Country Int Interest00Q7 Russ Destillation Digestion;Destillat

浏览 2提问于2022-10-17得票数 0

1回答

Pyspark:根据另一列生成一个列，该列多次将值附加到当前行

、、、、

我试过使用pyspark的铅/滞后函数，但无法准确地生成它。

浏览 2提问于2020-09-21得票数 1

回答已采纳

1回答

如何防止pyspark使用explode()复制数据？

、、、、

} } "PartNumber": "ABC"] df2 = df1.select("*").withColumn("PriceArray", explode("

浏览 6提问于2020-11-14得票数 0

回答已采纳

2回答

如何从结构数组中提取所有元素？

、、

我有一个具有不同列的Dataframe，其中一个列是一个结构数组：|id |title | values|| 1 | aaa | [{name1, id1}, {name2, id2},...]| | 2 | bbb

浏览 0提问于2018-06-17得票数 4

回答已采纳

2回答

我在Python2.7和Spark 1.6.1中使用PySpark。from pyspark.sql.functions import split, explode DF = sqlContext.createDataFrame([('cat \n\n elephantresolve 'explode(word)' due to data type mismatch: input to function explode should be array or

浏览 2提问于2016-07-06得票数 30

回答已采纳

2回答

如何分解spark dataframe中包含空值和空数组的ArrayType列。

、、

----+| 2|dsad| []|+---+----+---------+ explode( col(f.name).isNotNull, col(

浏览 2提问于2016-11-22得票数 0

1回答

Pyspark中的重复行

、、

假设我有一个数据： [(1, 10, 21.0, 0), (3, 14, -23.0, 1)], ("x1", "x2", "x3", "x4")) ## | x1| x2| x3| x4|## | 1| 10| 23.0| 5|## +---+---+-----+---+ 在这些副本中

浏览 3提问于2016-10-20得票数 4

回答已采纳

1回答

多列密集矢量爆炸柱

、、、、

我的问题是，我现在想让word_indices列上的Dataframeon爆炸，但是来自pyspark.sql.functions的explode方法只支持数组或映射作为输入。我试过：并得到以下错误： help1 = help0.withColumn('b' ,

浏览 1提问于2018-01-31得票数 1

1回答

如何在pyspark中将列表合并为单个列表

、、

在spark dataframe中，我有1列，其中包含列表列表作为行。我想将字符串列表合并为一个。+-------+--------------------++-------+--------------------++-------+--------------------+ | Bill |[["E","A"]["F"

浏览 6提问于2018-08-31得票数 3

回答已采纳

1回答

正在读取Pyspark代码中的嵌套Json文件。pyspark.sql.utils.AnalysisException：

、、

import * from pyspark.sql.functions import * from pyspark.sql import functions as F from pyspark.sql.functionsjson("C:\Workspace\student1.json").cache() df.show() df.printSchema() df.withColumn("Department", explode(col("Department&q

浏览 174提问于2021-07-09得票数 0

1回答

将句子的“规范化”数据转换为更大的词汇数据

、、、、

使用Python和Spark：假设我有一个包含句子行的DataFrame，那么我如何(从DBMS术语中)将句子DataFrame变成另一个DataFrame，每一行包含一个从句子中分离出来的单词？

浏览 1提问于2015-12-16得票数 2

回答已采纳

1回答

将pyspark中字符串数组的一列转换为一列中的多行

、

我想在databricks pyspark上将一个包含列的表转换为字符串数组。

浏览 3提问于2019-12-17得票数 0

1回答

Pyspark -如何复制/三重制行？

、、

我没有找到任何关于它的东西，我只知道我需要使用explode。

浏览 2提问于2020-05-05得票数 2

2回答

将具有数组形状的字符串的pyspark* databricks数据框转换为标准列*

、、

我有一个databricks数据框架，里面有大量的问卷结果，df上的问卷长度各不相同，问题也并不总是相同。如何从字符串字段Responses中获取问题和答案，这样我就有了一个包含3列的"CustomerID, Questions, Answers"列表因此，从这里开始 CustomerID Responses2 [{"question

浏览 7提问于2021-09-22得票数 0

回答已采纳

1回答

PySpark转换为数组类型

、

我目前正在处理以下错误，同时试图在pyspark.sql.functions.explode中的DataFrame中的数组列上运行PySpark。(lot)' due to data type mismatch: input to function explode should be array or map type, not LongType(df.list))from pyspark.sql import functions as sf # create duplicate

浏览 2提问于2017-11-20得票数 1

回答已采纳

1回答

将GraphFrames ShortestPath映射转换为PySpark中的DataFrame行

、、、、

我正试图找到一种最有效的方法，从GraphFrames函数shortestPaths获取映射输出，并将每个顶点的距离映射到新DataFrame中的各个行。我做得非常笨拙，把“距离”列拉到字典中，然后从那里转换成熊猫数据，然后再转换回“星火”数据，但我知道一定有更好的方法。 ("a", "Alice", 34), ("c", "Charlie&

浏览 0提问于2016-06-18得票数 6

回答已采纳

3回答

Pyspark:将多个数组列拆分为行

、、、、

示例DF：from pyspark.sql import SQLContext| 1| 2| 8 | foo |+---+---+----+------+df_exploded = df.withColumn(

浏览 2提问于2016-12-08得票数 78

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云