如何在不使用explode_outer的情况下扁平化PySpark 2.1.1模式来维护空数据点？

在PySpark 2.1.1中，如果不想使用explode_outer函数来扁平化模式并维护空数据点，可以使用select和alias函数来实现。

首先，使用select函数选择需要扁平化的列，并使用alias函数为每个列创建一个别名。然后，使用coalesce函数将空数据点替换为一个特定的值。最后，使用select函数选择所有别名列，并使用alias函数为整个结果创建一个别名。

以下是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, coalesce

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据
data = [(1, "John", 25, None), (2, "Alice", None, "New York"), (3, "Bob", 30, "London")]
df = spark.createDataFrame(data, ["id", "name", "age", "city"])

# 扁平化模式并维护空数据点
flattened_df = df.select(
    col("id").alias("id"),
    col("name").alias("name"),
    coalesce(col("age"), col("age").cast("string")).alias("age"),
    coalesce(col("city"), col("city").cast("string")).alias("city")
).select(
    col("id"),
    col("name"),
    col("age"),
    col("city")
).alias("result")

# 显示结果
flattened_df.show()

在上述示例中，我们选择了需要扁平化的列，并为每个列创建了一个别名。然后，使用coalesce函数将空数据点替换为一个特定的值，这里我们将空数据点替换为列本身的字符串表示。最后，我们选择所有别名列，并为整个结果创建了一个别名。

这样，我们就可以在不使用explode_outer的情况下扁平化PySpark 2.1.1模式并维护空数据点。

页面内容是否对你有帮助？

有帮助

没帮助

如何在不使用explode_outer的情况下扁平化PySpark 2.1.1模式来维护空数据点？

、、

我很难在python中找到一种解决方案，它允许我在扁平化嵌套模式的同时保留空行。我见过一些解决方案，但函数最终要么使用explode_outer，这适用于2.1.1以上的版本，要么删除空值，这不是我想要的。下面是我读过并尝试过但不起作用的资源：Spark sql how to explode without losing null values

浏览 14提问于2021-07-09得票数 1

5回答

SQL中的INSERT语句

、、

1],[value-2],[value-3])INSERT INTO `users` VALUES ([value-1],[value-2],[value-3]) 为什么会有额外的部分呢

浏览 0提问于2013-07-13得票数 0

3回答

为什么加法需要检查null而sum不需要检查null？

、、

选择sum(a)从求和开始，我们不需要检查空值，但是在加法中我们需要检查，谁能告诉我为什么？示例(select null, 1 b from dual但是，我们需要检查，如果我们不检查它将是空的

浏览 2提问于2017-10-11得票数 2

回答已采纳

3回答

Java中对象数组的长度

、

这是我的密码： int id; double pos_gps_lat;但我得到了4个结果：问题1:我如何获得记录的数量，而不是----对象数组包含的元素数？问题2:我将使用超过10K的记录，从性能

浏览 0提问于2019-10-24得票数 1

回答已采纳

3回答

每个列中不是空的第一个td的CSS选择器

、、

是否有为每个列只选择第一个单元格而不是空的选择器，即从下面的代码示例中选择包含2、3和4的单元格？span class='a'>5</span></td> </tr></table> 我目前的

浏览 0提问于2015-09-25得票数 2

回答已采纳

2回答

GraphQL:如何防止嵌套攻击来访问未经授权的数据？

、、、

从我对GraphQL解析器及其链接方式的理解来看，恶意授权客户端似乎可以针对他们可以访问的对象发出经过身份验证的请求，然后将请求链接到主体中，以便最终访问未经授权的记录。什么是一个或多个有效的设计模式来防止这样的攻击有几种类型称为学生、年级和课程。}

浏览 0提问于2019-09-17得票数 4

6回答

深度与扁平对象模型

、、

您会推荐哪一种--深度对象层次结构(每个对象都包含对其子对象的引用)，还是平面对象(您提供服务来检索子对象)？让我们假设您正在创建数据库管理应用程序。每个对象都是一个“哑”对象，只保存自己的属性，并且提供一组服务来检索层次结构，例如GetServerDatabases(服务器)、GetDatabaseColumns(数据库)。

浏览 3提问于2009-05-18得票数 4

回答已采纳

1回答

ESENT内部构件: JetPrereadKeys()的期望行为

、、、、

我有一个应用程序使用大量数据(100 GB+)存储在ESENT中。表的模式是:12字节的键和值，其典型大小约为2 KiB。页面大小设置为32 KiB。据我所知，() API旨在提高这种情况下的性能，但事实证明，无论是否使用此调用，都不会在实际行为中看到任何更改。详情如下：在我的例子中，JetPrereadKeys()总是报告足够数量的预读键，等于我在调用API时提交的键数。如

浏览 1提问于2020-01-15得票数 0

2回答

如何为开发建立DotNetNuke

我是.NET开发人员团队的一员，我们正在尝试使用DNN平台作为网站模板的一种方式，这样我们就不必花费数周或数月的时间来构建核心功能，如身份验证、权限、导航等。然而，我对平台的工作方式和安装方式感到非常困惑。我花了很多时间在和其他网站进行在线研究，这只会让我更加困惑。以下是一些尚未回答的具体问题：我们是否安装了源代码？说不建议安装源代码。它是一个单独的.csproj文件吗？它是作为网站一部分保存

浏览 3提问于2015-05-19得票数 5

4回答

查找正则表达式引擎

、

就lookaround而言，正则表达式引擎是如何工作的？我的具体查询如下：其次，如何在一个正则表达式中执行两个操作？假设我想要找到一个具有奇数个b和偶数个c的字符串？这就是我正在使用的：它在CC上失败，但应该只拉

浏览 1提问于2011-01-21得票数 1

回答已采纳

18回答

如何更快地编码(而不牺牲质量)

、

我已经做了几年的专业程序员了。关于我的代码的注释一般都是一样的:编写很好的代码，测试良好，但速度可能更快。编写完成工作的最小解决方案为各种事物编写(并使用)可重用的库在工作良好的地方使用著名<em

浏览 0提问于2011-04-06得票数 157

回答已采纳

2回答

生成数值序列时的MATLAB数值精度

、

我在测试一个这样的操作：[output] 39 40[input] 3.9/0.1 : round(4.1/0.1)第一次手术怎么了？

浏览 11提问于2022-07-12得票数 0

回答已采纳

4回答

推荐方法如何修改生产SQL数据库的模式？

、、、、

假设有一个包含100+表的数据库，并且添加了一个主要功能，这需要修改20个现有表并添加30个表。这些更改是由多个开发人员在开发数据库上花了很长时间(6个月)完成的。让我们假设这些更改不会使任何现有的生产数据无效(例如，在添加的列上允许使用默认值/空值，没有无法满足的新关系或约束)。将模式中的这些更改发布到生产数据库的最简单方法是什么？优选地，在不长时间关闭数据库的情况下。

浏览 0提问于2010-07-18得票数 5

回答已采纳

8回答

如何在访问属性之前延迟init调用？

、

我有一个测试框架，它要求使用以下类模式来定义测试用例： def __init__(self, params): test.run() 但是，我现在有一些测试用例，在调用__init__方法之前，我不希望调用run方法，但是我对框架结构或方法几乎没有控制权如何在不重新定义__init__ 或 run 方法的情况下延迟对

浏览 6提问于2017-07-19得票数 15

2回答

thread_local的成本

、

thead_local的成本可能是多少?内存中的？读写thead_local的与此相关的：操作系统通常是如何实现这一点的？似乎任何声明的thread_local都必须为创建的每个线程提供特定于线程的存储空间。

浏览 0提问于2011-12-13得票数 20

回答已采纳

2回答

ConcurrentHashMap读写锁

、、、

案例1:在ConcurrentHashMap中，假设线程t1正在从段n中读取，而在相同的线程中，t2希望在相同的段n上写入：问题2:，这两个操作是一个接一个，还是会同时执行？

浏览 4提问于2013-04-19得票数 29

回答已采纳

3回答

耦合到依赖注入框架

、、、

前言(我选择的框架是九级的，所以我将在我的示例中使用这个框架。)我将退一步，看看DI 框架存在的原因：因此，本着Ninjects文档的精神，让我们假设我们有一个Dojo来创建Samurais，这些Samurai在创建它们时会被赋予一个IWeapon，Dojo在创建Samurai时将使用Kernel.Get<IWeapon>()。Woah 我不是刚把

浏览 4提问于2012-12-18得票数 2

回答已采纳

2回答

当我们第二次加载时，引导弹出窗口不显示

、

我有一个bootstrap模式，如下所示。我正在使用ng-show来触发模式。

浏览 34提问于2017-08-08得票数 1

回答已采纳

1回答

如何使用apache2 mod_rewrite将文档根重定向到文件夹

、

有些主机有网站和API部件，还有一些文件夹(如uploads )，这些文件夹应该放在文档根目录之外。我想将它们组织在以下文件结构中： uploads api问题如下：并重写browser uri以记录直接向site文件夹发出的请求

浏览 0提问于2020-02-07得票数 1

回答已采纳

9回答

腾讯云时序数据库 CTSDB VS 传统时序数据库？

、

很多公司已经开始持续收集、分析数据，用于异常处理、趋势预测、精准营销、风险控制等场景，希望利用数据的潜在价值，提高公司盈利能力和竞争力。

浏览 1843提问于2018-09-26

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在不使用explode_outer的情况下扁平化PySpark 2.1.1模式来维护空数据点？

相关·内容

如何在不使用explode_outer的情况下扁平化PySpark 2.1.1模式来维护空数据点？

SQL中的INSERT语句

为什么加法需要检查null而sum不需要检查null？

Java中对象数组的长度

每个列中不是空的第一个td的CSS选择器

GraphQL:如何防止嵌套攻击来访问未经授权的数据？

深度与扁平对象模型

ESENT内部构件: JetPrereadKeys()的期望行为

如何为开发建立DotNetNuke

查找正则表达式引擎

如何更快地编码(而不牺牲质量)

生成数值序列时的MATLAB数值精度

推荐方法如何修改生产SQL数据库的模式？

如何在访问属性之前延迟init调用？

thread_local的成本

ConcurrentHashMap读写锁

耦合到依赖注入框架

当我们第二次加载时，引导弹出窗口不显示

如何使用apache2 mod_rewrite将文档根重定向到文件夹

腾讯云时序数据库 CTSDB VS 传统时序数据库？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐