首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PySpark数据转换-从JSON中获取值部分

PySpark数据转换-从JSON中获取值部分
EN

Stack Overflow用户
提问于 2021-12-21 14:06:34
回答 1查看 50关注 0票数 1

我有如下所示的dataframe,它有键对和值对。

代码语言:javascript
运行
复制
| Name |  Age | Location
| abc  |  12  | loc1
| def  |  13  | loc2

我想用它创建一个json字符串。当我执行一个.toJSON()并收集时,我将从那个dataframe获取以下json字符串

代码语言:javascript
运行
复制
[{"name":"abc","age":12,"location":"loc1"},{"name":"def","age":13,"location":"loc2"}]

是否有可能只得到json的值部分而不是像下面这样得到键呢?

预期产出:

代码语言:javascript
运行
复制
[{"abc",12,"loc1"},{"def",13,"loc2"}]

用于将dataframe转换为json的代码。

代码语言:javascript
运行
复制
df.toJSON().collect()

如果我们能在PYSPARK中得到一些解决方案,那就太好了。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-21 14:20:52

您期望的结果不是一个有效的JSON,因此不能在dataframe或to_json函数上使用to_json

您可以使用format_string函数来尝试这样的方法来获得您想要的结构:

代码语言:javascript
运行
复制
from pyspark.sql import functions as F

result = df.groupBy().agg(
    F.collect_list(
        F.format_string('{"%s", %s, "%s"}', *df.columns)
    ).alias("records")
).first()["records"]

print(result)
# ['{"abc", 12, "loc1"}', '{"def", 13, "loc2"}']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70436756

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档