专栏首页有关SQLHive 的入门级 Group By 全案例

Hive 的入门级 Group By 全案例

之前总是用全家桶方式玩大数据栈,总觉得有点儿戏。

这两天把自己的 Hadoop/Hive/Spark 集群环境搭好了,准备正式的做点试验,写点文章。

所以干货文章即将到来,小伙伴们,你们的赞准备好了嘛?

我这里用到一张表,叫做 tblobj2. 熟悉 sql server 一定不陌生,其实就是从 sql server 导了一张系统表 sys.objects 到 Hive 里面。具体方法可以参考这里:

使用 Sqoop 将 30W+ MySQL 数据导入 Hive

这是 Hive 的第一篇公开文,讲解 group by 用法。

其余的文章存着,大家热情起来了,我再慢慢放。觉得小编嘚瑟的朋友,砖可以拍过来了。

扯远了,回归正题,这里是 5 道 Hive 的 group by 应用题,大家有兴趣先做着。我会在星球里公布正式答案。

已知表结构如下:

image

表的前 10 行数据 sample 如下:

image

需求得:

  1. 按照 schema_id, type_desc 为分组的记录总数,如下:

image

  1. 按照 schema_id, type_desc 为分组的记录总数,以及按照 schema_id 为分组的记录总数,且两个分组的记录总数需要合并到一个结果集,如下:

image

3.按照 schema_id, type_desc 为分组的记录总数,以及按照 type_desc 为分组的记录总数,且两个分组的记录总数需要合并到一个结果集,如下:

image

  1. 按照schema_id, type_desc 各自为分组,并汇总所有数据的总数,最终结果展示在一个结果集,如下:

image

  1. 按照 schema_id + type_desc, schema_id 为分组依据求分组总数, 并合并所有数据总计到一个结果集:

image

要求: 必须使用一个 SELECT ..Group by 求解,而不是 union all/union

其实不仅仅是 Hive, SQL Server/Oracle 都有自己的 Group by 子选项案例。这里有篇旧文,可供参考:

真以为自己懂 Group By 了?

想了解 Hadoop/Hive/Spark 集群搭建,别求公司的 DevOps 大师们了,他们是爷爷不会理你的。开玩笑啦,其实他们才忙呢,自个儿能解决的问题,作为 IT 人别偷懒就是了。看这里:

Spark SQL 与 Hive 的第一场会师

Spark 高难度对话 SQL Server 后记

周末两三事儿:大数据专栏以及百题SQL学习营

本文分享自微信公众号 - 有关SQL(SQLHub),作者:Lenis

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 说说Spark的failover容错机制 | 面试系列

    (1) Driver挂掉,所有executor都会挂掉,那么所有未保存的数据都丢掉了,replication就不管用了;(数据不丢失的问题)

    Lenis
  • 一分钟看完 Hive 体系结构

    ①CLI(command line interface):CLI启动的时候会同时启动一个Hive副本;

    Lenis
  • 如何防止数据重复插入?

    问题起源,微信小程序抽风 wx.request() 重复请求服务器提交数据。后端服务也很简单,伪代码如下:

    Lenis
  • Java总结IO篇之字节流与字符流转化

    张风捷特烈
  • SAP Commerce Extension Module

    Extension modules are structural elements of an extension. 类似ABAP开发包的概念。

    Jerry Wang
  • 水彩下的灌篮高手火热开战 - 腾讯ISUX

    腾讯ISUX
  • 【译】3条简单的React状态管理规则

    React组件内部的状态是在渲染之间保持不变的封装数据。useState()是React钩子,负责管理功能组件内部的状态。

    Dunizb
  • 一张照片,几秒get你的所有信息!这个APP的人脸识别数据库远超FBI

    一张照片,不用正脸,就能人肉出你的姓名、住址、联系方式,这不是耸人听闻,在美国,这件事正在真实发生。

    大数据文摘
  • WebService

    Web Service概述:     Web Service也叫XML Web Service。 WebService是一种轻量级的独立的通讯技术。是通过SOA...

    用户1215919
  • 干货丨软件著作权登记攻略

    高企认定管理办法中,对知识产权的所有权状况有明确的要求。想要在知识产权这一块得到高分,必须要拥有1个发明专利或者是6个实用新型专利或者是6个计算机软件著作权。

    齿轮易创说互联网

扫码关注云+社区

领取腾讯云代金券