如何在现有DataFrame中创建新行？在PySpark或Scala中

在PySpark或Scala中，可以使用withColumn()方法来在现有DataFrame中创建新行。

在PySpark中，可以按照以下步骤进行操作：

导入必要的模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建一个示例DataFrame：

data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
df.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

使用withColumn()方法创建新行：

new_row = ("Dave", 40)
df_new = df.withColumn("Name", lit(new_row[0])).withColumn("Age", lit(new_row[1]))
df_new.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|   Dave| 40|
|   Dave| 40|
|   Dave| 40|
+-------+---+

在Scala中，可以按照以下步骤进行操作：

创建SparkSession对象：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.getOrCreate()

创建一个示例DataFrame：

val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val df = spark.createDataFrame(data).toDF("Name", "Age")
df.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

使用withColumn()方法创建新行：

val new_row = ("Dave", 40)
val df_new = df.withColumn("Name", lit(new_row._1)).withColumn("Age", lit(new_row._2))
df_new.show()

输出：

+-------+---+
|   Name|Age|
+-------+---+
|   Dave| 40|
|   Dave| 40|
|   Dave| 40|
+-------+---+

以上示例中，我们使用withColumn()方法将新的姓名和年龄值添加到DataFrame中，并使用lit()函数将值转换为常量列。

如何在现有DataFrame中创建新行？在PySpark或Scala中

python、scala、apache-spark、pyspark

例如，现在我有了这个DataFrame。-++--------+------+|19891201| 4|但是我希望这个DataFrame------+|19891201| 2||19891201| 4|我想创建新的行，这些行的数字范围是&q

浏览 14提问于2021-05-25得票数 1

1回答

在Scala Spark和PySpark之间传递sparkSession

scala、dataframe、apache-spark、pyspark

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iri

浏览 59提问于2019-10-01得票数 4

2回答

如何在Pyspark中使用Scala类

python、scala、apache-spark、pyspark、apache-spark-sql

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = {

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中<

浏览 34提问于2017-03-01得票数 1

回答已采纳

12回答

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

apache-spark、pyspark

我正在努力创建一个空的数据在火花(火花)。File "<stdin>", line 1, in <module>File "/Us

浏览 4提问于2016-01-06得票数 34

回答已采纳

1回答

使用自定义函数的火花

python、apache-spark、pyspark

我是Spark的一个程序员，但是我需要在一个项目中用PySpark来做一些事情。我想知道如何在=>中使用自定义行PySpark行映射转换。例如:我有一个dataframe mydf：1 5 33 9 10 我想将这个dataframe转换为另一个dataframe因此，我设计了一个map函数，它以一行作为输入，并生成一个新行作为输出。p

浏览 6提问于2017-10-20得票数 0

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),samplingRatio=0.1)a b c 1

浏览 0提问于2015-08-11得票数 6

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行</e

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

scala、apache-spark-sql、aws-glue

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： &#

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

在scala* dataframe中将字符串列转换为十进制*

scala、dataframe、casting

我有一个dataframe ( scala ) --我在笔记本中同时使用了pyspark和scala。#pysparkimport org.apache.spark.sql.functions._ val d

浏览 2提问于2020-10-27得票数 0

回答已采纳

7回答

从spark dataframe获取特定行

apache-spark、apache-spark-sql

scala spark数据帧中有没有df[100, c("column")]的替代品？我想从spark data frame的一列中选择特定的行。例如，上述R等效代码中的100th行

浏览 613提问于2016-02-07得票数 45

回答已采纳

1回答

'DataFrame‘对象不支持项分配

python、pandas、dataframe、pyspark、databricks

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。df["fullname"] = df["firstname"] + df["middlename"] + df["lastname"] 但是我一直收到错误"'DataFrame‘对象不支持项分配“。因此，我试图

浏览 1提问于2022-12-02得票数 0

3回答

将SCALA* === (三等号)转换为用于火花列的Python*

python、scala、apache-spark、pyspark

我在Scala中有一段用于Python转换的代码 searchTermsInputTable: DataFrame使用Dataset，它不受Pyspark===支持，用于列，该列也不支持我如何克服这一问题并将其转换为Python？

浏览 3提问于2022-03-18得票数 0

5回答

更新spark中的dataframe列

python、dataframe、apache-spark、pyspark、apache-spark-sql

查看新的spark API，还不清楚是否有可能修改DataFrame列。df.ix[x,y] = new_valuefrom pyspark.sql import f

浏览 12提问于2015-03-17得票数 95

回答已采纳

1回答

如何在org.apache.spark.sql.Row中添加mapPartitions列

scala、apache-spark

我是scala的新手，请记住:) 先谢谢你

浏览 6提问于2015-11-23得票数 25

回答已采纳

1回答

如何在Scala中以分数图的形式获取不同的值？

python、scala、apache-spark

我想在Scala中对我的数据帧进行分层采样。我的dataframe只有一列，我想为它形成一个分数映射。我可以在pyspark中实现，但在Scala中会出错。以下是我在Scala中尝试的内容：val sampled_df =

浏览 87提问于2018-06-07得票数 0

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

pandas、scala、dataframe、apache-spark

Dataframe是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas DataframePySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsformat('socket')\ .option('por

浏览 3提问于2016-12-29得票数 3

回答已采纳

2回答

无法导入DSX环境中的spark

python-3.x、apache-spark、ibm-cloud、apache-spark-mllib、data-science-experience

我已经确认火花库本身并没有加载到环境中。通常情况下，我会下载软件包，然后下载import。但是对于VMs来说，我不知道如何实现这一点。我确实找到了，但我不认为我有错配的问题--导入DSX的问题已经解决了，但我不能很好地解释我的情况。

浏览 0提问于2018-04-01得票数 0

回答已采纳

3回答

如何导入sparksession

apache-spark

如何创建sparksession？scala> import org.apache.spark.SparkConf scala> val conf = SparkSession.builder.master("local").appName

浏览 128提问于2019-08-21得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在现有DataFrame中创建新行？在PySpark或Scala中

相关·内容

如何在现有DataFrame中创建新行？在PySpark或Scala中

在Scala Spark和PySpark之间传递sparkSession

如何在Pyspark中使用Scala类

在使用PySpark时，如何在Spark中实现Python数据结构？

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

使用自定义函数的火花

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

将StringType列添加到现有的DataFrame中，然后应用默认值

如何在Scala中将DataFrame转换为DynamicFrame对象

在scala* dataframe中将字符串列转换为十进制*

从spark dataframe获取特定行

'DataFrame‘对象不支持项分配

将SCALA* === (三等号)转换为用于火花列的Python*

更新spark中的dataframe列

如何在org.apache.spark.sql.Row中添加mapPartitions列

如何在Scala中以分数图的形式获取不同的值？

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

无法导入DSX环境中的spark

如何导入sparksession

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐