如何修改spark dataframe行中的列值？

要修改Spark DataFrame行中的列值，可以使用withColumn()方法来实现。withColumn()方法允许你在DataFrame中添加、修改或删除列。

下面是修改Spark DataFrame行中列值的步骤：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val df = spark.createDataFrame(Seq(
  (1, "John", 25),
  (2, "Jane", 30),
  (3, "Bob", 35)
)).toDF("id", "name", "age")

val modifiedDF = df.withColumn("age", when(col("name") === "John", 26).otherwise(col("age")))

上述代码中，我们使用withColumn()方法修改了"age"列的值。如果"name"列的值等于"John"，则将"age"列的值修改为26，否则保持原值。

modifiedDF.show()

输出结果为：

+---+----+---+
| id|name|age|
+---+----+---+
|  1|John| 26|
|  2|Jane| 30|
|  3| Bob| 35|
+---+----+---+

通过以上步骤，我们成功修改了Spark DataFrame行中的列值。

请注意，以上示例代码是使用Scala语言编写的。如果你使用的是其他编程语言，可以根据相应的语法进行修改。

关于Spark DataFrame的更多操作和函数，请参考腾讯云的Spark DataFrame文档。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云