文章/答案/技术大牛

发布

当编码时Row模式未知时，如何将string与Row合并以创建新的spark dataframe？

在Spark中，当编码时Row模式未知时，可以使用withColumn方法将一个字符串列与Row对象合并以创建新的DataFrame。

下面是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import StructType, StructField, StringType

# 创建SparkSession
spark = SparkSession.builder.appName("Merge String with Row").getOrCreate()

# 示例数据
string_data = "Hello,World"
row_data = Row(name="John", age=30)

# 创建DataFrame的Schema
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", StringType(), True)
])

# 创建原始DataFrame
df = spark.createDataFrame([row_data], schema)

# 将字符串与Row合并，并创建新的DataFrame
new_df = df.withColumn("message", string_data)

# 显示新的DataFrame
new_df.show()

上述代码中，首先通过Row对象创建了一个原始的DataFrame（df）。然后，使用withColumn方法将字符串列（message）与Row对象中的列合并，创建了一个新的DataFrame（new_df）。最后，使用show方法显示了新的DataFrame内容。

此方法适用于在编码时未知Row模式的情况下，将字符串与Row合并以创建新的Spark DataFrame。

页面内容是否对你有帮助？

有帮助

没帮助

当编码时Row模式未知时，如何将string与Row合并以创建新的spark dataframe？

、、、、

我已经创建了一个函数，它接受一行作为输入，并给出一个字符串作为输出。我计划将此函数应用于不同模式的各种数据帧。这些数据帧非常庞大，每个数据帧有数百万行，但每个数据帧都有一个定义好的模式我想创建另一个函数，它将调用第一个函数，将函数的输出字符串与它发送到函数的行合并，并创建一个新的数据帧，该数据帧将作为第二个函数的输出我是spark-scala的

浏览 46提问于2019-10-15得票数 0

回答已采纳

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。val rddToDF = rdd.map(value => Row(v

浏览 0提问于2016-10-07得票数 6

回答已采纳

3回答

如何在Spark中引入一行模式？

在Row Java API中有一个row.schema()，但是没有row.set(StructType模式)。我也尝试过RowFactorie.create(objets)，但我不知道如何继续问题是，当我在workers中修改结构时，如何生成新的数据帧 /

浏览 2提问于2015-11-26得票数 14

4回答

当试图将dataframe行映射到更新的行时出现编码器错误

、、、、

当我试图在代码中执行与下面提到的相同的操作时 val row1 = row.getAs[String](1) Row(row(0),make,<e

浏览 1提问于2016-09-11得票数 42

回答已采纳

2回答

Apache -如何理解Hudi写操作与savemode？

、、

如何理解用upsert编写的hudi操作，而df保存了append呢？既然这将重新插入记录，为什么要追加而不是覆盖？有什么关系呢？如图所示：

浏览 5提问于2022-07-26得票数 0

2回答

使用Spark DataFrame在Cassandra表中插入数据

、、

我使用的是Scala版本2.10.5、Cassandra 3.0和Spark 1.6。scala> collection.saveToCassandra("test", "words", SomeColumns("word", "count"))val rowRDD = person.map(_.split(&q

浏览 0提问于2016-12-21得票数 6

回答已采纳

2回答

在星火上创建动态ArrayIndexOutOfBoundsException时的DataFrame

、、

我的目标是从来自外部dataframe的列和值动态创建一个dataframe。这是如何使用手动模式和数据定义创建dataframe： val data = Seq(Row(= spark.createDataFrame(spark.sparkContext.parallelize(data

浏览 4提问于2022-07-18得票数 0

回答已采纳

3回答

斯卡拉星火中的Encoder[Row]

、、

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。像这样简单的事情df.map { r: Row => r } 方法map：(隐式证据$7: EncoderRow)的参数不足。如果首先转换为RDD，一切都很好，但是不应该有一种像元组

浏览 5提问于2016-09-30得票数 2

1回答

星星之火SQL - createDataFrame错误的结构模式

、、、、

当尝试使用Spark创建DataFrame时，向它传递如下所示的行列表： {'some-column': [{'timestamp': 135353453

浏览 1提问于2018-11-19得票数 0

回答已采纳

0回答

为什么Spark DataFrames不改变他们的模式，该怎么办？

、、、

我正在使用Spark 2.1的结构化流来读取Kafka主题，该主题的内容是二进制avro编码的。("subscribe", config.getString("kafka.topic"))如果我打印这个DataFrame (messages.printSchema())的模式()来应用转换，因为我需要为这样的BusinessObject提供一个隐式编码器。

浏览 1提问于2017-01-05得票数 2

回答已采纳

4回答

在DataFrames上执行RDD操作

、、、、

我有一个包含10个字段的数据集。我需要在这些DataFrame上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我的示例代码：这是我的dataframe，我需要将这个dataframe转换成RDD，并在这个新的RDD上操作一些RDD下面是我如何将dataframe转换为RDD<

浏览 2提问于2016-12-14得票数 0

1回答

在对SnappyData运行JUnit时找不到Jetty的GzipHandler类

、、

SnappyData v.0-5**java.lang.NoClassDefFoundError: org/eclipse/jetty/server/handlerSparkContext sc = new SparkContext(conf); SnappyContext sna

浏览 6提问于2016-08-06得票数 1

3回答

将JavaRDD转换为DataFrame时的火花错误: java.util.Arrays$ArrayList不是array<string>模式的有效外部类型

、

对于下面的代码，它读取文本文件并将内容转换为DataFrame，然后输入到Word2Vector模型中：它抛出一个异常这发生在input.show(3)行

浏览 3提问于2017-04-23得票数 3

6回答

手动创建

我正在尝试手动创建一个具有特定数据的：rdd = sc.parallelize(row_in"lat", DecimalType(), True), ]df_in_test = spark.createDataFrame(rdd, sch

浏览 1提问于2019-09-16得票数 38

回答已采纳

3回答

pySpark将mapPartitions的结果转换为spark DataFrame

、、

我有一个作业需要在分区的spark数据帧上运行，该进程如下所示： rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是pandas.dataframe的rdd， type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) => pandas.core.frame.DataFrame

浏览 124提问于2019-12-10得票数 4

回答已采纳

4回答

Apache Spark的主键

、、、

我有一个与Apache Spark和PostgreSQL的JDBC连接，我想将一些数据插入到我的数据库中。当我使用append模式时，我需要为每个DataFrame.Row指定id。有没有办法让Spark创建主键？

浏览 2提问于2015-10-13得票数 33

回答已采纳

2回答

Spark2.0如何处理列空性？

、、、

在最近发布的中，作者指出(第74页)：在回顾笔记和以前的支拉时，上面的说法似乎不再是真的。根据和，当在DataFrame<

浏览 2提问于2017-11-24得票数 6

回答已采纳

6回答

如何在星火DataFrame中添加行I的持久列？

、、

这个问题并不新鲜，但我在星火中发现了令人惊讶的行为。我需要向DataFrame添加一列行I。我使用了DataFrame方法monotonically_increasing_id()，它确实为我提供了额外的单个行I(顺便说一句，这些I不是连续的，而是唯一的)。我遇到的问题是，当我过滤DataFrame时，结果DataFrame中的行in将被重新分配。这两个DataFrames如下所示。这个问题由row

浏览 0提问于2016-02-29得票数 37

回答已采纳

1回答

检查GraphX图对象

、

(row=> ((row.getAs[String]("toid").stripPrefix("osgb").toLong),row.getAs[String]("index"))) val verticesRDD= edges_raw.rdd.map(row=>(Edge(row.getAs[String]("positiveNode").stripPref

浏览 3提问于2016-08-17得票数 7

回答已采纳

1回答