文章/答案/技术大牛

发布

社区首页 >问答首页 >处理依赖型PySpark DataFrames

问处理依赖型PySpark DataFrames
EN

Stack Overflow用户

提问于 2021-12-12 02:05:35

回答 1查看 36关注 0票数 0

假设我们有一个嵌套的PySpark dataframe df，其模式如下：

root
 |-- a1: string (nullable = true)
 |-- a2: string (nullable = true)
 |-- arr1: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- dt1: date (nullable = true)
 |    |    |-- dt2: date (nullable = true)
 |    |    |-- dt_indicator: boolean (nullable = true)

假设我们有一个过程，在两个扁平的数据帧df1和df2中用以下模式将嵌套的数据frames扁平：

df1模式

root
 |-- a1: string (nullable = true)
 |-- a2: string (nullable = true)

和

df2模式

|-- dt1: date (nullable = true)
|-- dt2: date (nullable = true)
|-- dt_indicator: boolean (nullable = true)

有办法保持df2对df1的依赖吗？例如，如果a1发生变化，那么dt1和dt2可能会发生变化。在单个PySpark数据帧中很容易做到这一点。您能使用两个扁平的PySpark数据帧来完成这个任务吗？

python

apache-spark

pyspark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-12 08:26:26

由于df1和df2是从df派生的，所以对df1所做的更改不会反映到df2上。

如果您通过引入一个df并在df1和df2中包含这个ID来唯一地标识monotonically_increasing_id中的行，那么您可以使用这个ID通过一个连接传播条件。

也就是说，在df上应用依赖转换，然后提取df1和df2，以避免不必要的连接，这将是有益的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70320421

复制

相似问题

问处理依赖型PySpark DataFrames
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理依赖型PySpark DataFramesEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理依赖型PySpark DataFrames
EN