使用嵌套列连接两个spark Dataframe并更新其中一个列

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在处理一些需求，其中我从CSV文件中获得了一个小表格，如下所示： root |-- SUBID: integer (如果匹配，则使用CSV文件中的NewClosedDate更新accountlinks.account.closeddate。我已经编写了以下代码来分解所需的列并将其与小表连接，但我不太确定如何使用NewClosedDate更新closeddate字段(对于

浏览 15提问于2020-01-13得票数 0

1回答

如何将multipleColumns文件中的XML转换规则传递给Spark中的Dataframe？

、、、、

我有XML文件，其中包含使用withColumn函数在DataFrame上运行的所有转换，如下所示:如何在DataFrame上应用它。我有一个使用Scala ToolBox和runTmirror编写的代码，它在内部编译代码并在DataFrame上运行这些规则。它能很好地工作在不到100列的地方。但是现在需求已经改变了，列的数量从80列增加到210列，所以这段代码失败了，应该是StackOverflo

浏览 0提问于2019-08-31得票数 0

回答已采纳

3回答

连接-仅在第一次数据中选择数据

、

我有两个数据格式: DF1和DF2。我的任务是选择只存在于DF1中而不存在于DF2中的数据。any1能帮忙吗？我用的是Spark1.6shell。

浏览 6提问于2017-03-06得票数 0

回答已采纳

1回答

Parquet中的嵌套数据类型

、、、

Parquet文件的文档表明它可以存储/处理嵌套数据类型。然而，我找不到更多关于最佳做法/陷阱/.的信息。将这些嵌套数据类型存储到Parquet时。我正在考虑以下情况： I使用PySpark (Spark3.3)将我的星火DataFrame存储到一个Delta文件(该文件在罩下使用Parquet文件)。DataFrame DataFrame有一个嵌套的数据类型( Str

浏览 2提问于2022-11-11得票数 1

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择？我看到有一个dataFram

浏览 4提问于2016-02-28得票数 3

3回答

如何将两列合并为新的DataFrame？

、、

我有两个DataFrames (Spark2.2.0和Scala2.11.8)。第一个DataFrame df1有一个名为col1的列，第二个df2也有一个名为col2的列。两个DataFrames中的行数相等。我尝试过join，但我认为应该有其他方法来实现它。另外，我尝试应用withColumm，但它没有编译。val resul

浏览 1提问于2017-11-24得票数 3

回答已采纳

1回答

如何使用python将列添加到增量表

、、

我有三角桌df = spark.read.load("/databricks-datasets/learning-spark-v2/people10m.delta") table_name = "people_10m"现在，我要添加一个模式更改，可能是单个列，可

浏览 9提问于2022-10-20得票数 0

回答已采纳

3回答

如何使用来自另一个dataframe的新值更新？

、

我有两个火花数据：|col_1 | col_2 | ... | col_n |和数据交换B： |col_1 |我想在spark中编写一个操作，其中我可以创建一个新的dataframe，其中包含来自dataframe A的行以及来自dataframe B的更新行和新行。首先，我创建了一个哈希<

浏览 3提问于2018-05-11得票数 4

回答已采纳

1回答

在Spark上生成确定性ID列

、、、

我使用Spark窗口函数row_number()为具有嵌套结构的复杂DataFrame生成ID。然后，我提取DataFrame的一部分以创建多个表作为输出，其中包括这个键。但是，Spark只会在操作被触发时物化该表，所以当提取的表保存到HDFS中时，它最终会生成ID。另一方面，在处理大型DataFrames和转换时，Spark可能会打乱数据，从而更改row_number()可能生成的值。因为我从单个DataFrame生成多个表，所以我

浏览 1提问于2017-11-21得票数 1

1回答

spark:只拆分dataframe中的一列，并保持其余列不变

、、

我正在读取spark dataframe中的文件。在第一列中，我将获得两个用"_“连接的值。我需要将第一列拆分为两列，并保持其余列不变。我正在使用Scala和Spark 例如： col1 col2 col3 a 1

浏览 32提问于2019-05-01得票数 0

1回答

除了火种之外，左撇子有什么区别吗？

、、

在我下面的实现中，左反连接和除星火之外是否有区别？ | ).toDF("number", "word", "value") someDF5: org.apache.spark.sql.DataFrame| ("202003101750", "202003101700",42

浏览 1提问于2020-04-29得票数 0

回答已采纳

1回答

火花DataFrame* --如何在没有联接的情况下改变一列的排列*

、

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。# for some dataframe spark_df new_df = spar

浏览 0提问于2019-06-06得票数 0

1回答

如何在两个不同的DataFrames中添加相应的整数值

、

我的代码中有两个DataFrames，维数完全相同，假设是1,000,000×50。我需要在两个数据文件中添加相应的值。如何实现这一目标。一个选项是添加另一个带有ids的列，union和DataFrames，然后使用reduceByKey。但还有其他更优雅的方式吗？谢谢。

浏览 5提问于2017-03-09得票数 0

回答已采纳

2回答

如何合并火花(java)中具有不同模式的两个拼花文件

、、

我有两个不同列数的拼板文件，并试图将它们与下面的代码片段合并如何使用java中的spark合并这些文件？更新:示例数据集

浏览 2提问于2021-08-26得票数 2

回答已采纳

1回答

大数据结构

还要解释两个join语句要实现的目标。empColumns = ["emp_id"，"name"，"superior_emp_id"，"year_joined"，\模式= spark.createDataFrame”，10)，\ (&

浏览 2提问于2021-10-28得票数 0

1回答

将嵌套的JSON列转换为Pyspark列

、、、

现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据：我的pyspark dataframe中的一个嵌套列如下所示： event_params因

浏览 8提问于2022-06-07得票数 0

2回答

Spark :向dataframe添加条件列

、、、、

我希望向dataframe添加一个条件列Flag。当满足以下两个条件时，将1添加到Flag，否则为0： +----+------+-----+------------------------+|1001|taco |2.59 |2018-07-21T01:00:07.961Z

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

如何使用StructField数组向df添加列？

、、

我有两个dataframes，我想在第一个数据中添加第二个列中的所有列，而不是第一个列。我得到了一个StructField列数组，我想将这些列添加到dataframe中，并填充为null。这是我想出的最好的： private def addColumns(df: DataFrame, columnsToAdd: Array[StructField]): DataFrame<

浏览 2提问于2022-08-12得票数 0

回答已采纳

1回答

Pyspark:连接可变列数的函数

、、、

我想做一个函数，在这个函数中，我会告诉你，我想要加入多少列。如果我有3列的dataFrame，并给出一个参数"number_of_columns=3"，那么它将连接列: 0，1，2。但如果我有7列的dataFrame，并给出参数"number_of_columns=7"，那么它将连接列: 0，1，2，3，4，5，6。列的名称

浏览 12提问于2021-04-01得票数 2

回答已采纳

1回答

如何使用Datastax连接器从Spark* Dataframe更新Cassandra列的特定集合*

、、、、

我有一个由几个列组成的Cassandra表，我想要更新其中的一个(多列又是什么呢？)从星火2.4.0。但是如果我不提供所有的列，那么记录就不会更新。Cassandra模式：重点是星火DataFrame由带有更新时间戳的rowkey组成，必须在Cassandra表中更新时间戳rowkey","c

浏览 0提问于2018-12-26得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云