Loading [MathJax]/jax/input/TeX/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用不同的方案将rdd转换为json？

问如何使用不同的方案将rdd转换为json？
EN

Stack Overflow用户

提问于 2018-12-04 03:18:34

回答 1查看 3.7K关注 0票数 1

如何将下面的代码转换为使用DataFrame，df2.write.format('json')编写输出json

我有一个输入列表(例如，只有几个项目)。
想要写一个比输入更复杂/嵌套的json。
我试过用rdd.map
问题:输出包含json中每个对象的撇号。
我不能只是字符串替换，因为数据本身可能包含它。
如果在下面的示例中有更好的方法将该方案转换为带有DataFrame的嵌套json，那么您能说明如何实现吗？因为这可能会解决所有的问题。

以下是我尝试过的：

import json 

rdd = sc.parallelize([(1,2,3),(4,5,6),(7,8,9)])
df = rdd.toDF(["a","b","c"])
rddToJson = df.rdd.map(lambda x: json.dumps({"some_top_level_1": {"mycolumn1": x.a}})) // note that result json is complex and more nested than input
rddToJson.collect()

结果:包含撇号(不能替换，它可以出现在任何值)，如何使用适当的方案和数据，然后df.json.write？

结果：

Out[20]: 
['{"some_top_level_1": {"mycolumn1": 1}}',
 '{"some_top_level_1": {"mycolumn1": 4}}',
 '{"some_top_level_1": {"mycolumn1": 7}}']

我的目标(除非可以用另一种方式完成)是使用df.write.format(' json ')，以便从上面的输入编写嵌套/复杂的json。

PS:我看到了一个有趣的帖子：https://medium.com/@mrpowers/adding-structtype-columns-to-spark-dataframes-b44125409803，但由于我是新手，我不知道如何将我拥有的输入转换成输出所需的嵌套方案。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-12-04 05:53:20

您可以使用struct函数从平面架构创建嵌套数据。

import json 

rdd = sc.parallelize([(1,2,3),(4,5,6),(7,8,9)])
df = rdd.toDF(["a","b","c"])

df2 = df.withColumn("some_top_level_1", struct(col("a").alias("my_column1"))).select("some_top_level_1")
df2.coalesce(1).write.mode("overwrite").json("test.json")

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53611795

复制

相关文章

PostgreSQL排序字段不唯一导致分页查询结果出现重复数据

postgresql select 分页排序数据

pg单字段排序，排序字段中可能会出现重复，这样就会导致我们在进行分页查询时会出现一些和预期不相符的现象，如这个数据在第一页出现了，然后再第二页又出现。

翎野君

2023/09/25

6710

[包子分享]REST API Best practices: Where to put parameters?

在上一篇博客中，包子为您解说了REST设计风格的理论概念，相信有很多同学读完以后会有很多实际的问题需要进一步探讨。在这里，包子为大家转载了一个比较热门的最佳设计实践问题：如何设计REST风格的URI？从上篇文章里，我们知道URI是HTTP实现下的REST资源ID。URI一般包含了指向资源的路径，以及参数来指定请求获取的特定资源状态。那么到底什么应该是属于URI路径的一部分，而什么又该放入URI呢？这是一个值得大家思考的设计实践。原文链接：http://stackoverflow.com/questions

包子面试培训

2018/04/20

7590

Vue 3 选项 API

javascript 编程算法 vue.js

其实我们经常使用到组件里面的数据，而这些数据是定义在 data 对象函数里面的，为什么要实现定义在 data 对象函数里面呢？在 data 对象函数中的数据，Vue 会对其进行响应式劫持，代理，使他们具有一修改就会相应地更新到页面上，也就是说这些数据是被监测着的。

公众号---人生代码

2020/11/26

2.7K0

python开发_tkinter_菜单的不同选项

E | hongtenzone@foxmail.com B | http://www.cnblogs.com/hongten

Hongten

2018/09/13

8790

python开发_tkinter_菜单的不同选项

$_PUT？put数据获取

我们经常使用$_GET和$_POST来进行服务器交互，但是我们有的时候不得不被逼使用$_PUT方法获取数据当然，php中是没有$_PUT的，但是我们可以使用 $_SERVER[‘REQUEST_METHOD’]来判断，因为我们这个服务器变量会是PUT 这样我们十一哦那个parse_str就可以分割开put的变量 put.php页面代码 $_PUT = array(); if (‘PUT’ == $_SERVER[‘REQUEST_METHOD’]) { parse_str(file_get_c

苦咖啡

2018/05/08

2.3K0

使用作者代码重复结果

第三单元第十二+十三讲：使用作者代码重复结果课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53 这一篇会是代码密集型，因为原文

生信技能树jimmy

2020/03/30

1.8K0

树和森林：深度学习不是唯一的选择

决策树机器学习 scikit-learn 神经网络深度学习

基于树的学习算法是十分流行且应用广泛的一类非参数化的有监督学习算法，这些算法既可用于分类又可用于回归。基于树的学习算法的基础是包含一系列决策规则（例如，“如果他们是男性……”）的决策树。这些决策规则看起来很像一棵倒置的树，第一个决策规则在顶部，随后的决策规则在其下面展开。在决策树中，每个决策规则产生一个决策节点，并创建通向新节点的分支。终点处没有决策规则的分支被称为叶子节点（leaf）。

用户1682855

2019/08/30

1.1K0

树和森林：深度学习不是唯一的选择

MYSQL IN EXISTS LEFT JOIN 结果不同的问题？

编程算法 sql 数据库云数据库 SQL Server

随着问问题的同学越来越多，公众号内部私信回答问题已经很困难了，所以建立了一个群，关于各种数据库的问题都可以，目前主要是 POSTGRESQL, MYSQL ,MONGODB ,POLARDB ,REDIS 等，期待你的加入，加群请添加微信liuaustin3.

AustinDatabases

2023/02/28

1.8K0

MYSQL IN EXISTS LEFT JOIN 结果不同的问题？

MySQL | 如何去除结果集中的重复记录

数据操作语言：去除重复记录结果集中的重复记录假如我们要查询员工表有多少种职业，写出来的 SQL 语句如下：去除重复记录如果我们需要去除重复的数据，可以使用 DISTINCT 关键字来实现 SELECT DISTINCT 字段 FROM ......; SELECT job FROM t_emp; SELECT DISTINCT job FROM t_emp; 注意事项使用 DISTINCT 的 SELECT 子句中只能查询一列数据，如果查询多列，去除重复记录就会失效。 DISTIN

Zkeq

2022/05/18

2.8K0

MySQL | 如何去除结果集中的重复记录

jenkins python api与json api不同

api jenkins http json python

查看jenkins的python api与json api，感觉两者相差不多，但还是有所区别，所以用BeyondCompare进行对比分析。

donghui

2019/04/19

7930

jenkins python api与json api不同

MySQL使用distinct去掉查询结果重复的记录

使用 DISTINCT 关键字去掉重复记录具有较大的局限性。DISTINCT() 只能包含一个字段且查询结果也只返回该字段而非数据完整记录（如上例所示）。

用户7657330

2020/08/14

7.5K0

前端系列12集-全局API，组合式API，选项式API的使用

api 渲染对象函数前端

The setup() hook serves as the entry point for Composition API usage in components in the following cases: 在以下情况下， setup() 钩子用作组件中 Composition API 使用的入口点：

达达前端

2023/10/08

5270

一人企业：增长不是唯一的商业路径

我之前在互联网公司工作时，有一个让我困惑和痛苦的事情，就是“增长”是公司的头等要事，哪怕一开始是对用户有益的事情，增长到了一定阶段后，几乎必定会变成为了增长而增长，越来越远离初心，让人身心俱疲。

朱峰

2022/06/15

2950

注意：雪花算法并不是ID的唯一选择！

分布式编程算法 unix javascript java

秋天，树上掉下两片叶子，你要和它们说再见。但你如何知道这片叶子，不是另外一片叶子？是通过它的形状，还是通过它的重量？

xjjdog

2022/09/26

2.4K0

让IIS支持.NET Web Api PUT和DELETE请求

api iis put web 配置

有很长一段时间没有使用过IIS来托管应用了，今天用IIS来托管一个比较老的.NET Fx4.6的项目。发布到线上后居然一直调用不同本地却一直是正常的，关键是POST和GET请求都是正常的，只有PUT和DELETE请求是有问题的。经过一番思考忽然想起来了IIS默认情况下拒绝处理PUT和DELETE请求，要支持这两种请求的话需要做一些配置。

追逐时光者

2023/07/09

5870

让IIS支持.NET Web Api PUT和DELETE请求

为什么PERMANOVA和ANOSIM结果不同？

https://www.researchgate.net/post/Why_do_I_obtain_different_results_using_PERMANOVA_or_ANOSIM

Listenlii-生物信息知识分享

2021/07/30

3.3K0

EasyGBS云端录像查询结果跟实际的查询结果不同调整方法

腾讯云测试服务

近期我们一直在对EasyGBS的云端录像做测试，其中一个重要原因就是广大用户对云端录像的要求不断提高，因此对于云端录像的检查仍然是必不可少的一个环节。在测试过程中，我们就发现在云端录像的查询结果跟想要查询的结果不同。

TSINGSEE青犀视频

2021/08/10

1.5K0

EasyGBS云端录像查询结果跟实际的查询结果不同调整方法

对mysql left join 出现的重复结果去重

云数据库 SQL Server

简单说明问题出现的原因： MySQL left join 语句格式为： A LEFT JOIN B ON 条件表达式

马哥Python

2019/06/27

18.6K0

win和linux的php异或运算结果不同

作者：matrix 被围观: 3,383 次发布时间：2015-06-17 分类：兼容并蓄零零星星 | 3 条评论 »

HHTjim 部落格

2022/09/26

2.6K0

win和linux的php异或运算结果不同

点击加载更多

相似问题

通过Shopify API为PUT请求重定向302

15

Shopify API，406响应Google脚本UrlFetchApp的PUT请求

10

Hibernate SqlResultSetMapping相同的结果重复，而不是唯一的

14

发布到Shopify API，结果为400

11

API平台:连接表的PUT with级联选项

11

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例