如何从Spark dataframe中的其他列值创建新列？

文章/答案/技术大牛

发布

2回答

、、

输入Spark数据帧到dataframe1的格式转换将整个行和列转置到输出dataframe2，如下所示。

浏览 6提问于2017-07-26得票数 0

回答已采纳

2回答

如何连接熊猫数据帧中行的列值？

、、、

我正在尝试创建一个新列，该列的值是从dataframe的每一行中的其他列中串联的：dataFrame['images/0'] = 'https://img.ssensemedia.com/images&

浏览 3提问于2022-09-02得票数 0

回答已采纳

1回答

使用python绘制直方图并为spark dataframe创建新列

、

我正在使用下面的python代码从spark dataframe创建一个交叉表。age_matter = df[df['y']=='yes'].stat.crosstab("age", "y").orderBy("age_y", ascending=True).show(100) 我想知道如何创建基于此代码的直方图另一方面，我正在基于spark

浏览 0提问于2021-02-23得票数 0

1回答

在现有列的基础上在DataFrame中添加新列

、、

我有一个包含日期时间列的csv文件："2011-05-02T04:52:09+00:00“。我使用scala，文件被加载到spark DataFrame中，我可以使用jodas时间来解析日期：import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.spark.csv", Map(&qu

浏览 0提问于2015-04-28得票数 3

回答已采纳

1回答

新的Dataframe列作为其他行的通用函数(spark)

、、、

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数from nltk.metrics.distance import edit_distanced = { 'word':

浏览 0提问于2018-01-09得票数 0

回答已采纳

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

、

我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。很抱歉没有粘贴到这里的整个代码，我尽我最大的努力来最小化失败的代码在这里。下面是我在实际代码中遇到的例外情况：似乎我们无法在UDF中创建数据。而令我惊讶的是，它失败

浏览 0提问于2018-11-30得票数 0

回答已采纳

2回答

PySpark将IntegerTypes转换为ByteType进行优化

、、、

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新</e

浏览 3提问于2018-02-01得票数 5

1回答

在该行的任何列中选择至少一个空或空的行。

、

从一个dataframe中，我想创建一个新的dataframe，其中任何列中至少有一个值为null或空，在Spark1.5/ scala中。我正在尝试编写一个通用函数来创建这个新的dataframe。在这里，我传递数据文件和列列表，并创建记录。谢谢

浏览 4提问于2017-07-25得票数 4

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。，在创建它之后，不需要修改json字符串，这样得到的DF如下所示： +----

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

迭代的列并更新指定的值

、、、

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。import org.apache.spark.sql.functions._ val a:而不是Dataframe<e

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

从多列DataFrame中火花批写卡夫卡主题

、、

批处理之后，我需要向Kafka主题写入包含多个不同列的结果DataFrame。根据下面的火花文档，写入Kafka的Dataframe在模式中应该有以下强制列：正如我前面提到的，我有更多的列有值，所以我有一个问题--如何正确地将整个DataFrame行作为一条消息从我的Spark</em

浏览 0提问于2018-11-23得票数 0

回答已采纳

1回答

向现有DataFrame添加mapType列

、、

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是将它们存储在一个<

浏览 9提问于2019-11-20得票数 0

2回答

如何在Pyspark中根据另一列的值选择另一列？

我有一个数据帧，其中的一些列special_column包含像one，two这样的值。我的数据帧也有列one_processed和two_processed。我想添加一个新的列my_new_column，它的值是根据来自special_column的处理值从我的dataframe中的<

浏览 24提问于2020-02-21得票数 0

1回答

Pyspark :检查日期列中的值是否有效

、、、

我有一个从CSV文件导入的spark。在应用了一些操作(主要是删除列/行)之后，我尝试将新的DataFrame保存到Hadoop，这将显示一个错误消息： **如何检查DataFrame是否

浏览 1提问于2018-08-27得票数 1

回答已采纳

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

、、

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整

浏览 31提问于2020-12-20得票数 0

1回答

如何使用Scala在Spark中创建仅包含列名和数据类型的新空列

、

与在RDBMS中添加新列一样，不需要在列中填充数据，但需要提供列名和数据类型。我想在Spark dataframe中做同样的事情，但不一定在Schema中指定，我希望新的列可以以特别的方式创建 val dfWithNewColumn = df.withColumn("new_col", IntgerType) 重点就是提供类型而不是S

浏览 28提问于2020-07-02得票数 0

回答已采纳

2回答

将海量JSON文件读入Spark Dataframe

、、、

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。flattenSchema(st, colName) } }val df = sqlCtx.read.json(sparkContext.

浏览 2提问于2016-12-10得票数 5

1回答

如何通过在spark中使用IN子句传递另一个列值来检索列值

、、

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A

浏览 19提问于2021-05-28得票数 0

回答已采纳

1回答

我使用Spark窗口函数row_number()为具有嵌套结构的复杂DataFrame生成ID。然后，我提取DataFrame的一部分以创建多个表作为输出，其中包括这个键。但是，Spark只会在操作被触发时物化该表，所以当提取的表保存到HDFS中时，它最终会生成ID。另一方面，在处理大型DataFrames和转换时，Spark可能会打乱数据，从而更改row_number()可能生成的值</e

浏览 1提问于2017-11-21得票数 1

2回答

PySpark用新列表向dataframe添加新列

、、、

假设我有以下数据： [(1, "a", 23.0), (3, "B", -23.0)], 我想要添加新的x4列，但是我在Python中有值，而不是添加到新列中，例如x4_ls = [35.0, 32.0]。是否有最佳方法将新</em

浏览 0提问于2017-02-15得票数 0

回答已采纳

点击加载更多