如何在现有DataFrame中创建新行？在PySpark或Scala中

在PySpark或Scala中，可以使用withColumn()方法来在现有DataFrame中创建新行。

在PySpark中，可以按照以下步骤进行操作：

导入必要的模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建一个示例DataFrame：

data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
df.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

使用withColumn()方法创建新行：

new_row = ("Dave", 40)
df_new = df.withColumn("Name", lit(new_row[0])).withColumn("Age", lit(new_row[1]))
df_new.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|   Dave| 40|
|   Dave| 40|
|   Dave| 40|
+-------+---+

在Scala中，可以按照以下步骤进行操作：

创建SparkSession对象：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.getOrCreate()

创建一个示例DataFrame：

val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val df = spark.createDataFrame(data).toDF("Name", "Age")
df.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

使用withColumn()方法创建新行：

val new_row = ("Dave", 40)
val df_new = df.withColumn("Name", lit(new_row._1)).withColumn("Age", lit(new_row._2))
df_new.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|   Dave| 40|
|   Dave| 40|
|   Dave| 40|
+-------+---+

以上示例中，我们使用withColumn()方法将新的姓名和年龄值添加到DataFrame中，并使用lit()函数将值转换为常量列。

相关·内容

独孤九剑-Spark面试80连击(下)

使用Elasticsearch、Spark构建推荐系统 #1：概述及环境构建

PySpark数据类型转换异常分析

在使用PySpark的SparkSQL读取HDFS的文本文件创建DataFrame时，在做数据类型转换时会出现一些异常，如下：

PySpark︱DataFrame操作指南：增/删/改/查/合并/统计与数据处理

笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。

Spark Pipeline官方文档

官方文档链接：https://spark.apache.org/docs/latest/ml-pipeline.html

PySpark 读写 CSV 文件到 DataFrame

PySpark 在 DataFrameReader 上提供了csv("path")将 CSV 文件读入 PySpark DataFrame 并保存或写入 CSV 文件的功能dataframeObj.write.csv("path")，在本文中，云朵君将和大家一起学习如何将本地目录中的单个文件、多个文件、所有文件读入 DataFrame，应用一些转换，最后使用 PySpark 示例将 DataFrame 写回 CSV 文件。

大数据入门与实战-PySpark的使用教程

Apache Spark是用Scala编程语言编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言处理RDD。正是由于一个名为Py4j的库，他们才能实现这一目标。这里不介绍PySpark的环境设置，主要介绍一些实例，以便快速上手。

真香！PySpark整合Apache Hudi实战

Hudi支持Spark-2.x版本，你可以点击如下链接安装Spark，并使用pyspark启动

Apache Zeppelin 中 Spark 解释器

概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark

010

Spark2.x新特性的介绍

dataframe与dataset统一，dataframe只是dataset[Row]的类型别名

动手学Zeppelin数据挖掘生产力怪兽

Apache Zeppelin是一款类似jupyter notebook的交互式代码编辑器。

kudu介绍与操作方式

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。

异类框架BigDL，TensorFlow的潜在杀器！

【导读】你能利用现有的 Spark 集群构建深度学习模型吗？如何分析存储在 HDFS、Hive 和 HBase 中 tb 级的数据吗？企业想用深度学习模型，可是要考虑的问题又很多，怎么破？这篇文章中，我们将给大家讲讲大数据+深度学习下，BigDL 框架的利弊与应用教程，为什么有了 TF、PyTorch，还是会考虑用 BigDL？

PySpark与MongoDB、MySQL进行数据交互

前些时候和后台对接，需要用pyspark获取MongoDB、MySQL数据，本文将介绍如何使用PySpark与MongoDB、MySQL进行数据交互。MongoDB是一个基于分布式文件存储的数据库，由C++语言编写。它旨在为Web应用提供可扩展的高性能数据存储解决方案。

PySpark 读写 JSON 文件到 DataFrame

PySpark SQL 提供 read.json("path") 将单行或多行（多行）JSON 文件读取到 PySpark DataFrame 并 write.json("path") 保存或写入 JSON 文件的功能，在本教程中，您将学习如何读取单个文件、多个文件、目录中的所有文件进入 DataFrame 并使用 Python 示例将 DataFrame 写回 JSON 文件。

kudu简介与操作方式

1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。 kudu的使用场景： Strong performance for both scan and random access to help customers simplify complex hybrid architectures（适用于那些既有随机访问，也有批量数据扫描的复合场景） High CPU efficienc

DataFrame的真正含义正在被杀死，什么才是真正的DataFrame？

今天要介绍的 paper 是 Towards Scalable Dataframe Systems，目前还是预印本。作者 Devin Petersohn 来自 Riselab，该实验室的前身是大名鼎鼎的 APMLab，诞生了 Apache Spark、Apache Mesos 等一系列著名开源项目。

大数据Python：3大数据分析工具

在这篇文章中，我们将讨论三个令人敬畏的大数据Python工具，以使用生产数据提高您的大数据编程技能。

大数据开发！Pandas转spark无痛指南！⛵

Pandas 是每位数据科学家和 Python 数据分析师都熟悉的工具库，它灵活且强大具备丰富的功能，但在处理大型数据集时，它是非常受限的。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在现有DataFrame中创建新行？在PySpark或Scala中

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐