Spark学习之数据读取与保存(4)

Spark学习之数据读取与保存(4)

1. 文件格式

Spark对很多种文件格式的读取和保存方式都很简单。
如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。

2. 读取/保存文本文件

Python中读取一个文本文件
    input = sc.textfile("file:///home/holen/repos/spark/README.md")
    Scala中读取一个文本文件
    val input = sc.textFile("file:///home/holen/repos/spark/README.md")
    Java中读取一个文本文件
    JavaRDD<String> input = sc.textFile("file:///home/holen/repos/spark/README.md")
saveAsTextFile()方法用了保存为文本文件

3. 读取/保存JSON文件

Python中读取JSON文件
    import json
    data = input.map(lambda x: json.loads(x))

    Python中保存为JSON文件
    (data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)))
        .saveAsTextFile(outputFile)

4. Spark SQL中的结构化数据

结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。
在各种情况下,我们把一条SQL查询给Spark SQL,让它对一个数据源执行查询,然后得到由Row对象组成的RDD,每个Row对象表示一条记录。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏cloudskyme

hadoop使用(五)

第1章 引言 1.1 编写目的 对关于hadoop的文档及资料进行进一步的整理。 1.2 相关网站    毋庸置疑 http://hadoop.apache.o...

3175
来自专栏IMWeb前端团队

Web自动化之Headless Chrome编码实战

API 概览 && 编码Tips 文档地址 github Chrome DevTools Protocol 协议本身的仓库 有问题可以在这里提issue gi...

25510
来自专栏听雨堂

Excel中使用了自定义函数的单元格自动更新

        这个问题困扰我2天了,白天没有网络,只能研究帮助,从calculate研究到cache,都没有找到更好的办法。晚上在网上只花了5分钟就解决了。原...

1967
来自专栏cloudskyme

hadoop使用(六)

第1章 引言 1.1 编写目的 介绍pig,一个不得不说的hadoop的扩展。 1.2 什么是pig Pig是一个基于Hadoop的大规模数据分析平台,它提供的...

3146
来自专栏祝威廉

Spark Streaming Direct Approach (No Receivers) 分析

这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是:

712
来自专栏Hadoop实操

如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表

2714
来自专栏闵开慧

Hadoop作业提交与执行源码分析

Hadoop作业提交与执行源码分析 1  概述 Job执行整体流程图 2  Job创建与提交过程 2.1         Configurat...

4046
来自专栏北京马哥教育

Hadoop 2.0中作业日志收集原理以及配置方法

Hadoop 2.0提供了跟1.0类似的作业日志收集组件,从一定程度上可认为直接重用了1.0的代码模块,考虑到YARN已经变为通用资源管理平台,因此,提供一个通...

3546
来自专栏LuckQI

惊心动魄的Hadoop-6小时350T数据恢复

994
来自专栏芋道源码1024

分布式作业 Elastic-Job-Lite 源码分析 —— 作业数据存储

JobNodePath,作业节点路径类。作业节点是在普通的节点前加上作业名称的前缀。

782

扫码关注云+社区