Pyspark -从带有数组字段的列表列表创建DataFrame_从嵌套列表创建pyspark dataframe_从PySpark DataFrame中的列表中删除列表 - 腾讯云开发者社区

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

4回答

如何从Spark中的列表中创建数据？

python、apache-spark、pyspark

火花版本: 2.1 例如，在pyspark中，我创建了一个列表 test_list = [['Hello', 'world'], ['I', 'am', 'fine']] 然后，如何从test_list中创建数据格式，其中dataframe的类型如下所示： DataFrame[words: array<string>]

浏览 4提问于2017-04-17得票数 31

回答已采纳

1回答

在pyspark中使用动态模式从元组列表创建数据帧

pyspark

我正在尝试从pyspark中的元组列表创建一个具有动态模式的dataframe 下面是我的元组列表代码 outputlist= [] for row in df2.collect(): tmpList = row temptuple = () id = tmpList[0] temptuple = temptuple+(id,) print(id) for val in range (1,len(tmpList)): if tmpList[val] is None: break else : value = tm

浏览 9提问于2021-02-04得票数 0

1回答

将int列转换为列表类型pyspark

pyspark

我的DataFrame有一个列num_of_items。这是一个计数字段。现在，我想将它从int类型转换为list类型。我尝试使用array(col)，甚至创建一个函数，以int值作为输入返回列表。不起作用 from pyspark.sql.types import ArrayType from array import array def to_array(x): return [x] df=df.withColumn("num_of_items", monotonically_increasing_id()) df col_1 | num_of_item

浏览 1提问于2019-01-07得票数 3

回答已采纳

1回答

将多个字段创建为Pyspark中的数组？

apache-spark、pyspark

我有多个列的dataframe，如下所示： | ID | Grouping | Field_1 | Field_2 | Field_3 | Field_4 | |----|----------|---------|---------|---------|---------| | 1 | AA | A | B | C | M | | 2 | AA | D | E | F | N | 我希望创建2个新列，并在新字段中存储现有列的列表，并在现有字段上使用group by。这样，

浏览 0提问于2020-11-20得票数 0

回答已采纳

1回答

通过迭代另一个dataframe中的列表列来创建数据帧

python、list、dataframe、pyspark、row

在DataFrame中，我有一个包含有序节点的列表的列： osmDF.schema Out[1]: StructType(List(StructField(id,LongType,true), StructField(nodes,ArrayType(LongType,true),true), StructField(tags,MapType(StringType,StringType,true),true))) osmDF.head(3) Out[2]: | id |

浏览 3提问于2021-10-07得票数 1

回答已采纳

3回答

将模式数据类型JSON混合到PySpark DataFrame

python、json、pyspark

我需要将JSON的列表转换为pySpark DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的数据类型。例如:字段complex是一个Dicts数组，Dict有四个键，但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的DataFrame，因为他无法正确地推断模式，所以pyspark“删除”了一些数据。PySpark决定complex-field的架构应为：StructType("complex", Array

浏览 23提问于2022-03-28得票数 0

回答已采纳

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

Pyspark数据框架操作的单元测试用例

python、unit-testing、spark-dataframe、pyspark-sql

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我希望为它编写单元测试用例。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD，我还能用典型的Python函数做操作吗？如

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

python、apache-spark、dataframe、pyspark、apache-spark-sql

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误，如果你能帮助的话也会得到加分！我有以下Spark DataFrame from pyspark.sql.functions import udf from pyspark.sql import Row fr

浏览 1提问于2016-10-28得票数 4

回答已采纳

1回答

如何在pyspark F.create_map中具有混合数据类型值

python、apache-spark、pyspark、apache-spark-sql

我正在使用pyspark的create_map函数来创建一个key:value对列表。我的问题是，当我引入带有字符串值的键值对时，带有浮点值的键值对都被转换为字符串！有人知道如何避免这种情况发生吗？为了重现我的问题： import pandas as pd import pyspark.sql.functions as F from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName("test").getOrCreate() test_

浏览 14提问于2022-02-14得票数 1

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

python、pandas、apache-spark、pyspark、apache-spark-sql

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在pyspark中执行相同的函数。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不在例外列表中，则逐个字符移动，将其与前一个字

浏览 7提问于2021-03-15得票数 0

回答已采纳

2回答

使用Pyspark将XML转换为Dataframe

python、xml、pyspark、databricks

我正在尝试废弃一个XML文件，并从XML文件上的标签创建一个数据帧。我使用pyspark开发Databricks。 XML文件： <?xml version="1.0" encoding="UTF-8"?> <note> <shorttitle>shorttitle_1</shorttitle> <shorttitle>shorttitle_2</shorttitle> <shorttitle>shorttitle_3</shorttitle> <

浏览 2提问于2018-09-12得票数 2

1回答

使用regex语句的case语句

python、sql、apache-spark、pyspark、apache-spark-sql

下面有电火花密码。在代码中，我将从另一个已转换为临时视图的dataframe创建一个dataframe。然后，我将使用sql查询在最后一个查询中创建一个新字段。我想要创建的字段的代码最初来自postgresql，我想知道在pyspark中正确版本的case语句和regex是什么？ case when a.field2::varchar ~ '^[0-9]+$' then a.field2::varchar else '0' end 我是刚转换(field2为字符串)吗？另外，什么是regex测试的正确的pyspark版本？代码： from pyspark.s

浏览 1提问于2021-04-16得票数 0

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

apache-spark、spark-dataframe、apache-spark-2.0

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用： data = spark.read.csv('data.csv', header=True) 我使用以下命令找到数据的类型 type(data) 结果是 pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。 from pyspark.sql.types import * from pyspark.sql.functions import loc from pyspark.mllib.regression

浏览 4提问于2016-09-08得票数 6

4回答

从行创建DataFrame将导致“推断模式问题”

apache-spark、pyspark、apache-spark-sql

当我开始学习PySpark时，我使用一个列表来创建一个dataframe。现在已经不再推荐从list推断模式了，我收到了一个警告，它建议我使用pyspark.sql.Row。但是，当我尝试使用Row创建一个模式时，就会发现模式问题。这是我的密码： >>> row = Row(name='Severin', age=33) >>> df = spark.createDataFrame(row) 这将导致以下错误： Traceback (most recent call last): File "<stdin>",

浏览 0提问于2017-07-06得票数 4

回答已采纳

2回答

获取Spark dataframe中列的数组中项的索引

apache-spark、pyspark

通过执行以下操作，我可以根据数组字段中是否存在特定值来过滤Spark dataframe (在PySpark中)： from pyspark.sql.functions import array_contains spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show() 有没有一种方法可以获得数组中找到项的位置的索引？它看起来应该存在，但我没有找到它。谢谢。

浏览 1提问于2018-12-13得票数 5

回答已采纳

1回答

如何使和有效地运行“无效”PySpark用户定义函数(UDF)，不返回任何内容？

apache-spark、pyspark、pyarrow

给定在PySpark中指定用户定义函数的可用方法：逐行本机PySpark UDFs 利用Apache Arrow的熊猫UDF 如何才能在dataframe上创建和运行一个用户定义的函数，该函数无需创建一个新列就不返回任何内容？例如:假设您希望并行地将一个dataframe列加载到某个外部持久性存储中。也就是说，不要将整个数据写入HDFS，而是使用一个字段作为键，另一个字段作为将逐行传输到blob存储(如s3 )的值。

浏览 0提问于2019-01-17得票数 0

1回答

如何在PySpark中获取列的最后值

python、pyspark、pyspark-sql

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。假设我们有一个带有A列的dataframe df。我想要创建另一个dataframe，它只包含最后一个值为A的一个列(这里的最后一个值是指列A底部的真正记录)。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，我希望可以为PySpark和Pyspark中的Python代码提供一个解决方案。

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

具有动态架构且不使用Pandas的PySpark中的DataFrame为空

python、apache-spark、pyspark

我想创建一个空的Dataframe，该模式应该与手动尝试使用Structtype的现有Pyspark Dataframe .I相匹配。

浏览 12提问于2021-06-28得票数 0

1回答

在PYSPARK中从联接表中选择所有列

python、apache-spark、pyspark

我有一个'type = pyspark.sql.dataframe.DataFrame‘的数据，我想从这个数据df和另一个具有相同类型的数据df1中选择所有列。我从r创建df，这是一个元组列表。 df = spark.createDataFrame(r, schema =column ) df_final = spark.sql('select * \ from df \ Inner Join df1 \ on df.a = df1.b') 我有一个错误: AnalysisE

浏览 4提问于2022-07-08得票数 0

1回答

ImportError:无法导入名称'st_makePoint‘

postgresql、pyspark、geospatial

我正在尝试使用pyspark在postgresql数据库中输入一些数据。postresql表中有一个字段，定义为数据类型地理(Point)。我编写了下面的pyspark代码来创建这个使用经度和纬度的字段。 from pyspark.sql.functions import st_makePoint df = (Load input file into pyspark dataframe) df = df.withColumn("Location", st_makePoint(col("Longitude"), col("Latitude")))

浏览 0提问于2020-08-02得票数 0

回答已采纳

1回答

为什么需要嵌套pyspark.sql.SparkSession.createDataFrame的data参数？

apache-spark、pyspark、types

我正在尝试从一个列表创建一个简单的DataFrame，并且想要理解其中的逻辑。我在文档中的第一次尝试是 import pyspark sc: pyspark.SparkContext = pyspark.SparkContext(master='local[*]', appName='TestApp') spark = pyspark.sql.SparkSession.builder.getOrCreate() df = spark.createDataFrame([1, 2], schema=['a', 'b']) 这将引发T

浏览 36提问于2021-03-06得票数 0

回答已采纳

3回答

将PySpark DataFrame ArrayType字段合并为单个ArrayType字段

python、apache-spark、dataframe、pyspark、apache-spark-sql

我有一个带有2个ArrayType字段的PySpark DataFrame： >>>df DataFrame[id: string, tokens: array<string>, bigrams: array<string>] >>>df.take(1) [Row(id='ID1', tokens=['one', 'two', 'two'], bigrams=['one two', 'two two'])] 我想将它们合并到一个ArrayT

浏览 0提问于2016-05-18得票数 21

回答已采纳

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

python、pyspark

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。例如： +---+-----+-----+ | id| f_1 | f_2 | +---+-----+-----+ | 1| null| null| | 2|123 | null| | 3|124 |127 | +---+-----+-----+ 我想要的是将所有以f为前缀的列组合成一个新列中的pyspark数组。例如： +---+---------+ | id| combined| +---+---------+ | 1| [] | | 2|[123] | | 3|[1

浏览 67提问于2020-06-18得票数 1

回答已采纳

1回答

使用索引存在于PySpark数据Create的一列中的列表在dataframe中创建列

python、arrays、pyspark、spark-dataframe、pyspark-sql

我是Python和PySpark的新手。我在PySpark中有一个数据文件，如下所示： ## +---+---+------+ ## | x1| x2| x3 | ## +---+---+------+ ## | 0| a | 13.0| ## | 2| B | -33.0| ## | 1| B | -63.0| ## +---+---+------+ 我有一个数组: arr = 10，12，13 我希望在dataframe中创建一个列x4，这样它就应该根据x1作为索引的值从列表中得到相应的值。最后的数据集应该如下所示： ## +---+---+------+-----+ ## |

浏览 3提问于2016-11-15得票数 3

回答已采纳

2回答

从PySpark DataFrame列中删除元素

pyspark

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

使用pyspark从每个行的数组中获取不同的计数

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在使用pyspark dataframe从每个行的数组中查找不同的计数:输入: col1 1,1,1 1,2,1,2 output: 1 3 2 I used below code but it is giving me the length of an array: output: 3 3 4 please help me how do i achieve this using python pyspark dataframe. slen = udf(lambda s: len(s), IntegerType()) count = Df.withColumn("Coun

浏览 10提问于2020-02-28得票数 1

回答已采纳

1回答

如何在PySpark中迭代数组列

pyspark

浏览 1提问于2020-01-09得票数 1

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

4回答

Pyspark数据帧到python列表

python、pyspark

我有下面的pyspark数据帧。 Job_name start_time status A 09:00:00 Not started B 09:30:00 Completed C 09:30:00 Running 我正在尝试创建一个列表-从上面的数据框中创建一个列表，如下所示。预期输出： lst = ["job A Not started at 09:00:00", "job B Completed at 9:30", "job C Running at 9.30"] 有没有办法将pysp

浏览 34提问于2021-09-21得票数 1

回答已采纳

1回答

如何阻止pyspark dataframe变为list？

pyspark、apache-spark-sql

我从一个pyspark dataframe开始，在对它使用.take()之后转换成一个列表。我怎么才能保持它是pyspark数据帧呢？ df1 = Ce_clean print(type(df1)) df1 = df1.take(1000) print(type(df1)) <class 'pyspark.sql.dataframe.DataFrame'> <class 'list'>

浏览 1提问于2020-09-17得票数 1

2回答

在collect_set后按值选择行

select、pyspark、row

使用 from pyspark.sql import functions as f 方法f.agg和f.collect_set I在dataFrame中创建了一个列colSet，如下所示： +-------+--------+ | index | colSet | +-------+--------+ | 1|[11, 13]| | 2| [3, 6]| | 3| [3, 7]| | 4| [2, 7]| | 5| [2, 6]| +-------+--------+ 现在，如何使用python/和pyspark只选择那些行，例如，3是

浏览 0提问于2018-06-11得票数 1

回答已采纳

1回答

如何将numpy数组存储为PySpark DataFrame中的新列？

numpy、apache-spark、pyspark、apache-spark-sql、numpy-ndarray

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？ from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() pdf = pd.DataFrame({'a': [1,2,3], 'b': ['abc', 'cde', 'edf']}) df_data = spark.createDataFrame(pdf, schema='

浏览 6提问于2022-05-25得票数 1

2回答

将Pyspark的Dataframe转换为scala数据帧

python、azure、scala、dataframe、databricks

在Databricks下，我使用此命令从Python Dataframe创建dataframe %python wordsDF = sqlContext.createDataFrame(pandasDF). 我想将数据发送回Azure Datalake Gen2，并且我想使用Scala dataframe。如何从Pyspark返回/转换Dataframe到scala Dataframe？ ?

浏览 36提问于2021-10-05得票数 0

2回答

从pyspark: ValueError中的列表中创建数据

python、dataframe、apache-spark、pyspark

我正在尝试将一个列表转换成一个数据列表，这样我就可以将它作为一个列加入到一个更大的dataframe中。列表中的数据是随机生成的名称，如下所示： from faker import Faker from pyspark.sql.functions import * import pyspark.sql.functions as F from pyspark.sql.types import * faker = Faker("en_GB") list1 = [faker.first_name() for _ in range(0, 100)] firstname = sc.p

浏览 2提问于2021-11-24得票数 1

回答已采纳

1回答

火花放电中连通元件的有效计算

graph、spark-dataframe、spark-graphx、connected-components、graphframes

我在为一个城市的朋友们寻找连接的部件。我的数据是带有城市属性的边缘列表。城市SRC _ DEST 休斯敦凯尔->本尼休斯敦本尼->查尔斯休斯敦查尔斯->丹尼奥马哈卡罗尔->布莱恩等。我知道pyspark的connectedComponents函数的GraphX库会在图的所有边上迭代，以找到连通的组件，我想避免这种情况。我会怎样做呢？编辑:我想我可以做一些类似的事情按城市从dataframe组中选择connected_components(*) 其中，connected_components生成一个项目列表。

浏览 3提问于2017-09-25得票数 1

回答已采纳

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

dataframe、apache-spark、pyspark、apache-spark-sql

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----+ |Name | +-----+ | a| | b| | c| +-----+ Dataframe B:共3条记录 +-----+ |Zip | +-----+ |06905| |06901| |06902| +-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机选择的值填充这些值。因此，Dataframe A将如下所示： +-----+-----+ |Name |Zip | +-----+-----+ |

浏览 12提问于2021-02-10得票数 2

回答已采纳

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

RDD[string]：将DataFrame转换为pyspark

python、apache-spark、dataframe、pyspark、apache-spark-sql

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String] 我将DataFrame df转换为RDD data data = df.rdd type (data) ## pyspark.rdd.RDD 新的RDD data包含Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc', _c3=u'ddd&#

浏览 2提问于2016-02-17得票数 8

回答已采纳

1回答

在Scala Spark和PySpark之间传递sparkSession

scala、dataframe、apache-spark、pyspark

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

3回答

如何将数组(即列表)列转换为向量

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

这个问题的简短版本！考虑下面的片段(假设spark已经设置为某些SparkSession)： from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) 注意，温度字段是一个浮子列表。我想将这些浮点列表转换为MLlib

浏览 9提问于2017-02-09得票数 75

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

python、pandas、dataframe、oop、pyspark

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况： import pyspark def rename_sdf(df, mapper={}, **kwargs_mapper): # Do something # return something pyspark.sql.dataframe.DataFrame.rename = rename_sdf 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非

浏览 6提问于2020-07-09得票数 1

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

python、dataframe、apache-spark、pyspark

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如果两个数据文件中存在相同的ID，则创建一个显示“True”或“False”的新列。到目前为止，我有这个 def doValuesMatch(df1, df2): left_join = df1.join(df2, on='ID&#

浏览 3提问于2021-12-11得票数 0

1回答

Pyspark，如何编写以逗号作为小数分隔符的df

python、pyspark

这是我用来写文件的函数： #pyspark def write_file(dataframe=None, dest_dir=None, filename=None): import os temp_dir = dest_dir + '/tmp/' dataframe.coalesce(1) \ .write \ .format('com.databricks.spark.csv') \ .mode('overwrite') \ .option('he

浏览 8提问于2021-07-16得票数 0

回答已采纳

1回答

将列中的字符串模式更改为列表

python、pyspark

我有一个带有"b“列的DF，它的模式是‘a\b\c\c\.\x’，如下所示： from pyspark import Row from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName('DataFrame') \ .master('local[*]') \ .getOrCreate() | a| b| c| d| +---+-----------+------------+-----+

浏览 0提问于2019-07-08得票数 0

回答已采纳

1回答

PySpark:如何创建包含日期范围的DataFrame

python、dataframe、date、pyspark、apache-spark-sql

我正在尝试创建一个包含日期范围的单一列的PySpark数据框架，但是我一直收到这个错误。我也尝试将它转换为int，但我不确定您是否应该这样做。 # Gets an existing SparkSession or, if there is no existing one, creates a new one spark = SparkSession.builder.appName('pyspark-shellTest2').getOrCreate() from pyspark.sql.functions import col, to_date, asc from pyspar

浏览 20提问于2022-12-02得票数 0