Spark Dataframe，使用其他列的函数添加新列_Spark DataFrame:根据其他列添加新列_在spark dataframe中使用forloop添加新列 - 腾讯云开发者社区

java、scala、dataframe、apache-spark

在我的scala程序中，我有一个包含两列a和b (都是Int类型)的dataframe df。另外，我有一个先前定义的对象obj，其中包含一些方法和属性。在这里，我想使用来自obj的dataframe和属性的当前值向dataframe df添加一个新列。f来创建新的列c，如下所示： +---+---+-----+ | a | b

浏览 16提问于2021-10-21得票数 0

回答已采纳

1回答

Spark DataFrame:根据其他列添加新列

python、apache-spark

我想添加一个新列new_col，如果列a的值在yes_list中，则在new_col中该值为1，否则为0 from pyspark import SparkContext sc = SparkContext.getOrCreatey'] 如下所示： rdd_df.withColumn("new_col", [1 if val in yes_list else 0 for val in rdd_df["a"]]) 但以上是不正确的，

浏览 11提问于2020-07-09得票数 0

回答已采纳

1回答

添加新列DataFrame Spark

apache-spark-sql

我尝试通过在dataframe中添加一个新列来使用SparkSQL。我的守则是：df.withColumn("UID", new org.apache.spark.sql.Column("UID")) 错误：'**UID**‘给定<e

浏览 1提问于2017-03-14得票数 1

2回答

PySpark用新列表向dataframe添加新列

python、apache-spark、pyspark、spark-dataframe

)输出应该类似于：## | x1| x2| x3| x4|## |

浏览 0提问于2017-02-15得票数 0

回答已采纳

10回答

如何将新列添加到星火DataFrame (使用PySpark)？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： spark_new_col = s

浏览 13提问于2015-11-12得票数 179

回答已采纳

1回答

使用现有列使用Scala添加新列

scala、apache-spark

嗨，我想在DataFrame的每一行中添加使用现有列的新列，我在Scala中尝试这样做.df是包含可变列数的dataframe，只能在运行时决定。values = allVals ++ allVals.mkString("_") }) 无法找到存储在数据集中的类型的

浏览 2提问于2017-10-09得票数 1

1回答

在一个大型数据文件上迭代

pyspark

我使用以下代码 for i in df.collect(): events_df.append(v) events_df = spark.createDataFrame(events_df, schema)

浏览 4提问于2022-05-13得票数 2

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加</

浏览 4提问于2016-10-10得票数 7

回答已采纳

7回答

如何更改火花数据中的列位置？

scala、apache-spark、dataframe、apache-spark-sql

我想知道是否可以更改列在dataframe中的位置，实际上是否可以更改架构？准确地说，如果我有一个像[field1, field2, field3]那样的数据文件，并且我想得到[field1, field3, field2]。如何移动一个

浏览 4提问于2016-06-29得票数 47

回答已采纳

1回答

使用spark* spark mapPartition时出错*

scala、apache-spark、rdd、user-defined-functions

Row.fromSeq(item.toSeq :+(myNewColumn)) } }import spark.implicits._ import org.

浏览 1提问于2017-10-04得票数 0

3回答

如何删除PySpark DataFrame中的列复制而不声明列名

pandas、dataframe、pyspark

这是我在熊猫身上做的事如何在PySpark中做到这一点？我找到了，但是代码的数量太不一样了

浏览 3提问于2021-09-30得票数 2

回答已采纳

2回答

将海量JSON文件读入Spark Dataframe

json、scala、apache-spark、dataframe

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。在尝试呈现模式时，我使用以下函数： case _ => Array(col(colName))

浏览 2提问于2016-12-10得票数 5

1回答

新的Dataframe列作为其他行的通用函数(spark)

python、apache-spark、pyspark、spark-dataframe

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数from nltk.metrics.distance import edit_distanced = { 'word': ['cat', 'ha

浏览 0提问于2018-01-09得票数 0

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

python、apache-spark、pyspark、pyspark-dataframes

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。test = customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个新的列(不复制dataframe)？我们只有一个选择(熊猫中的inpl

浏览 4提问于2021-01-26得票数 0

1回答

使用where子句抛出列的pyspark不存在错误

apache-spark、dataframe、pyspark、databricks

我使用火花放电加载csv到红移。我想问一下manny行是如何被添加的。我使用withcolumn函数创建了一个新列：我看到这个列是创建的，我可以使用psql进行查询。，我能够查询其他专栏，但不仅仅是我添加的新</

浏览 0提问于2018-08-07得票数 0

1回答

Spark在添加随机双列时，在所有行中都有重复值。

scala、apache-spark、dataframe

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame更改为Dat

浏览 2提问于2019-04-26得票数 2

回答已采纳

1回答

如何用“未找到类型”修复Scala错误

scala、apache-spark

我是Scala的新手，只是想在星火中学习。现在我正在编写Scala应用程序，将csv文件从hadoop加载到dataframe中，然后我想在该dataframe中添加一个新列。有一个函数来填充那个新列的内容，为了测试函数--从csv文件中大写列，csv文件只包含一个列: emp_id和它的字符串。该函数在对象TestServic

浏览 1提问于2020-03-12得票数 0

回答已采纳

1回答

火花DataFrame* --如何在没有联接的情况下改变一列的排列*

apache-spark、pyspark

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。# for some dataframe spark_df new_df =

浏览 0提问于2019-06-06得票数 0

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

scala、apache-spark、apache-spark-sql

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)：我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spark.sql.DataFrame = [id:

浏览 27提问于2017-07-07得票数 0

回答已采纳

2回答

RDD对混合DataFrame* API的UDF性能的影响*

scala、performance、apache-spark、apache-spark-sql、rdd

虽然Spark鼓励在可能的情况下使用DataFrame API，但如果DataFrame API不够，通常是选择回到RDD还是使用UDF。这两种选择之间是否存在内在的性能差异？RDD和UDF相似，因为它们都不能从催化剂和钨的优化中获益。是否还有其他开销，如果存在，这两种方法之间是否有区别？为了给出一个具体的例子，假设我有一个DataFrame，它包含一列具有自定义格式的</

浏览 2提问于2016-08-09得票数 9

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云