前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark SQL如何实现mysql的union操作

Spark SQL如何实现mysql的union操作

作者头像
Spark学习技巧
发布2018-12-24 14:46:48
3K0
发布2018-12-24 14:46:48
举报
文章被收录于专栏:Spark学习技巧

简介

今天聊了聊一个小小的基础题,union和union all的区别:

union all是直接连接,取到得是所有值,记录可能有重复 union 是取唯一值,记录没有重复 1、UNION 的语法如下:

代码语言:javascript
复制
[SQL 语句 1]
      UNION
[SQL 语句 2]

2、UNION ALL 的语法如下:

代码语言:javascript
复制
[SQL 语句 1]
      UNION ALL
[SQL 语句 2]

对比总结:

UNION和UNION ALL关键字都是将两个结果集合并为一个,但这两者从使用和效率上来说都有所不同。 1、对重复结果的处理:UNION在进行表链接后会筛选掉重复的记录,Union All不会去除重复记录。 2、对排序的处理:Union将会按照字段的顺序进行排序;UNION ALL只是简单的将两个结果合并后就返回。

从效率上说,UNION ALL 要比UNION快很多,所以,如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话,那么就使用UNION ALL。

Spark SQL

实际上Spark SQL的DataSet的API是没有union all操作的,只有union操作,而且其union操作就是union all操作。

此时要实现union操作,需要在union之后加上distinct操作。

代码语言:javascript
复制
sales.union(sales).show()

输出结果是有重复数据的

需要将操作更改为:

代码语言:javascript
复制
sales.union(sales).distinct().show()

Spark SQL的几个里程碑!

Table API&SQL的基本概念及使用介绍

Spark SQL用UDF实现按列特征重分区

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浪尖聊大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档