【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉

本文将通过7个简单的小练习,对比示范SparkCore和SparkSQL编程的方法。除了WordCount词频统计这个典型的处理非结构数据的例子外,本文示范的大部分例子中,使用SparkSQL的编程接口都会更加简洁易懂。

一,求平均值

问题:给定一组整数,求它们的平均值。

(注意:这些整数可能加起来会很大,要考虑溢出可能)

二,WordCount词频统计

问题:读取文档中的单词,统计每个单词出现的词数。

三,求TopN

问题:给定学生姓名和成绩等信息,找出成绩前三名的学生。

四,求最大值最小值

问题:给定一组数,找出其中的最大值和最小值。

五,排序并添加序号

问题:给定一组数,对其从小到大排序,并添加从0开始的序号。

六,二次排序

问题:给定学生的成绩和年龄等信息,根据学生的成绩从大到小排序,如果成绩相等,根据年龄从大到小排序。

七,连接操作

问题:给定班级信息表和学生成绩表,对其进行连接操作,找出班级平均分在75分以上的班级。

推荐阅读:

30分钟理解Spark的基本原理

3小时Scala入门

1小时入门Spark之RDD编程 2小时入门SparkSQL编程

本文分享自微信公众号 - SAMshare(gh_8528ce7b7e80)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏雪胖纸的玩蛇日常

drf项目部署到腾讯云

在购买了腾讯云服务器成功之后,腾讯云的站内信会将系统的登录名:Ubuntu,以及登录初始密码发给你。

20650
来自专栏Android必知必会

CentOS下将php和mysql命令加入到环境变量中的几种方法

Linux CentOS配置LAPM环境时,为了方便,将php和mysql命令加到系统环境命令,下面我们记录几种在linux下将php和mysql加入到环境变量...

15920
来自专栏行者常至

Ubuntu PostgreSQL安装和配置

config /etc/postgresql/9.5/main data /var/lib/postgresql/9.5/main locale en_U...

15720
来自专栏呼延

Mysql查询语句优化

上一篇文章 《MySQL索引原理机器优化》讲了索引的一些原理以及优化方案,这一次学习对查询的优化,毕竟快速的查找到数据才是我们的最终目的.

19220
来自专栏idba

基于python的mysql复制工具

python-mysql-replication 是基于python实现的 MySQL复制协议工具,我们可以用它来解析binlog 获取日志的insert,up...

19620
来自专栏呼延

Mysql中explain命令查看执行计划

使用explain命令可以查看一条查询语句的执行计划,这篇文章记录一下查询计划的各个属性的值极其含义.

17610
来自专栏呼延

Mysql自带数据库中的信息

当你新接触一个数据库,对其中的数据库,表,字段什么的都不清楚,这时候需要查找某个字段,怎么办呢?

15320
来自专栏高爽的专栏

CAP理论十二年回顾:"规则"变了

CAP理论断言任何基于网络的数据共享系统,最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。但是通过显式处理分区情形,系统设计师可以做到优化数据一致...

8910
来自专栏idba

腾讯新一代企业级云数据库-CynosDB

CynosDB产品简介。CynosDB,又称NewCDB,是由腾讯云和TEG基础架构部数据库技术团队联合打造的面向云计算2.0时代的新一代企业级分布式...

13420
来自专栏呼延

一文搞懂mysql事务隔离级别

这个是面试必问了吧….虽然目前在实际工作种我基本上还没有过实际的应用,但是在学习MySQL的时候还是专门进行一些学习,这里做一点记录.

22140

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励