文章/答案/技术大牛

发布

通过从旧的dataframe pyspark中选择列，将列追加到新创建的dataframe

基础概念

在PySpark中，DataFrame是一种分布式数据集合，类似于关系型数据库中的表。它提供了丰富的数据操作API，可以方便地进行数据清洗、转换和分析。

类型

选择列：从DataFrame中选择特定的列。
追加列：将新的列添加到现有的DataFrame中。

应用场景

在数据处理过程中，经常需要对数据进行筛选和扩展。例如，在数据分析中，可能需要从原始数据中提取特定的字段，并添加新的计算字段。

示例代码

假设我们有一个旧的DataFrame old_df，我们希望从中选择某些列，并将这些列追加到一个新创建的DataFrame new_df 中。

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

# 假设这是旧的DataFrame
data = [
    (1, "Alice", 29),
    (2, "Bob", 31),
    (3, "Cathy", 25)
]
columns = ["id", "name", "age"]
old_df = spark.createDataFrame(data, columns)

# 选择特定的列
selected_columns = ["id", "name"]
selected_df = old_df.select(*selected_columns)

# 创建新的DataFrame
new_df = spark.createDataFrame([], selected_df.schema)

# 将选择的列追加到新的DataFrame
new_df = new_df.union(selected_df)

# 显示结果
new_df.show()

参考链接

PySpark DataFrame API

可能遇到的问题及解决方法

列名不匹配：如果选择的列名在DataFrame中不存在，会抛出异常。解决方法是在选择列之前，先检查列名是否存在。
列名不匹配：如果选择的列名在DataFrame中不存在，会抛出异常。解决方法是在选择列之前，先检查列名是否存在。
数据类型不匹配：如果新创建的DataFrame的schema与选择的列的数据类型不匹配，会抛出异常。解决方法是确保新DataFrame的schema与选择的列的数据类型一致。
数据类型不匹配：如果新创建的DataFrame的schema与选择的列的数据类型不匹配，会抛出异常。解决方法是确保新DataFrame的schema与选择的列的数据类型一致。
性能问题：对于大规模数据集，频繁的选择和追加操作可能会导致性能问题。解决方法是可以考虑使用缓存或持久化来优化性能。
性能问题：对于大规模数据集，频繁的选择和追加操作可能会导致性能问题。解决方法是可以考虑使用缓存或持久化来优化性能。

通过以上方法，可以有效地从旧的DataFrame中选择列，并将这些列追加到新创建的DataFrame中。

通过从旧的dataframe pyspark中选择列，将列追加到新创建的dataframe

、、、

我正在阅读一个JSON，并且我有一个字典(Dictn)，它的键告诉我应该从JSON df中选择哪些列。我正在尝试创建一个新的df，然后添加那些列，这些列的键在JSON中存在，但我得到了以下内容错误：这方面的任何帮助都非常感谢，因为我真的是个新手。 ‘运算符！ip#238中缺少已解析的属性项目作为ip#267的ip#238 .；；\n！项目作为ip#267的ip#238 \n

浏览 54提问于2019-12-29得票数 0

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。from

浏览 4提问于2016-09-08得票数 6

1回答

在PySpark DataFrames中，为什么setitem没有完全实现？

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：T

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5：也收到了同样的</

浏览 1提问于2022-12-02得票数 0

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)']

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

col函数如何知道我们引用的是哪个DataFrame？

、、、、

我一直对Spark中的col函数感到困惑，无论是Python还是Scala。这似乎是：Python中的df["zipcode"]和spark.sql.functions.col("zipcode")。让我感到困惑的是使用的最后一个用法。spark.sql.functions.col如何知道我们指的是哪一个Python DataF

浏览 2提问于2021-02-03得票数 1

1回答

如何将PySpark* RDD转换为具有未知列的Dataframe？*

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？到目前为止，我的代码如下：sqlContext = SQLContext(sc) example_rd

浏览 9提问于2017-04-07得票数 2

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。from pyspark.sql import functions as F update_func = (F.when(F.col('update_col.otherwise(F.col('update_col'

浏览 12提问于2015-03-17得票数 95

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个

浏览 6提问于2020-07-09得票数 1

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115.

浏览 1提问于2018-04-14得票数 1

回答已采纳

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。f_2 || 1| null| null|| 3|124 |127 | +---+-----+-----+ 我想要的是将所有以f为前缀的列组合成一个新列中的pyspark数组。中的</e

浏览 67提问于2020-06-18得票数 1

回答已采纳

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataF

浏览 9提问于2017-01-12得票数 1

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

2回答

如何将前导零添加到pyspark* dataframe列*

我正在尝试将前导零添加到pyspark dataframe中的一列输入:- ID 123 预期输出： 000000000123

浏览 17提问于2019-09-16得票数 5

回答已采纳

3回答

向Spark DataFrame添加空列

、、、、

正如web上的中所提到的，向现有DataFrame添加新列并不简单。不幸的是，拥有这种功能是很重要的(尽管它在分布式环境中效率很低)，尤其是在尝试使用unionAll连接两个DataFrame时。将null列添加到DataFrame以简化unionAll的最优雅的解决方法是什么from

浏览 0提问于2015-10-09得票数 63

回答已采纳

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他

浏览 3提问于2017-09-15得票数 5

10回答

如何将新列添加到星火DataFrame* (使用PySpark)？*

、、、、

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功：还得到了一个错误，使用如下： my_df_spark.withColumn("hours",

浏览 13提问于2015-11-12得票数 179

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算T

浏览 1提问于2018-12-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过从旧的dataframe pyspark中选择列，将列追加到新创建的dataframe

基础概念

相关优势

类型

应用场景

示例代码

参考链接

可能遇到的问题及解决方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐