如何进行Hive SQL IF/ELSE查询？_SQL/HIVE -如何从水平输出到垂直输出进行查询？_如何进行if和else mysql查询 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用Spark读取Hive中的数据

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

06

高级大数据研发工程师面试题总结

4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别

03

您找到你想要的搜索结果了吗？

是的

没有找到

饿了么元数据管理实践之路

元数据打通数据源、数据仓库、数据应用，记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息（也就是MetaStore）；动态的任务、表依赖映射关系；数据仓库的模型定义、数据生命周期；以及ETL任务调度信息、输入输出等。

04

Python小案例（九）PySpark读写数据

有些业务场景需要Python直接读写Hive集群，也需要Python对MySQL进行操作。pyspark就是为了方便python读取Hive集群数据，当然环境搭建也免不了数仓的帮忙，常见的如开发企业内部的Jupyter Lab。

02

加速你的检索

上篇了解 hive 的一种查询优化方案,可以通过分区表尽量避免查询扫描全表,提高查询时效。这篇我们讨论使用另外一种优化手段 -把查询检索交给专业的组件去执行。

04

Hive MetaStore 在快手遇到的挑战与优化

导读：快手基于Hive构建数据仓库，并把Hive的元数据信息存储在MySql中，随着业务发展和数据增长，一方面对于计算引擎提出了更高的要求，同时也给Hive元数据库的服务稳定性带来了巨大的挑战。本文将主要介绍Hive MetaStore服务在快手的挑战与优化，包括：

04

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop，顾名思义它是基于Hadoop生态的一个SQL引擎架构，我们其实常常听到Hive、SparkSQL、Presto、Impala架构，接下来，我会简单的描述一下常用的架构情况。

03

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中，我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。

05

想成为大数据分析工程师？那这份面试集锦一定要收好！

本篇文章为大家带来Hive面试指南，文内会有两种题型，问答题和代码题，题目一部分来自于网上，一部分来自平时工作的总结。

02

剑谱总纲 | 大数据方向学习面试知识图谱

本系列主题是大数据开发面试指南，旨在为大家提供一个大数据学习的基本路线，完善数据开发的技术栈，以及我们面试一个大数据开发岗位的时候，哪些东西是重点考察的，这些公司更希望面试者具备哪些技能。

03

Apache Kylin 在中通快递的实践

Apache Kylin 在中通是如何落地的，又是怎样赋能中通快递实现 OLAP 分析能力起飞的？本文从多方面对比了 Presto 和 Kylin 的优缺点，并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

02

Impala TPC-DS基准测试

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面Fayson介绍了《如何编译及使用hive-testbench生成Hive基准测试数据》，在生成的Hive基准测试数据的基础上，如何进行Impala的TPC-DS基准测试，本篇文章主要介绍如何准备Impala基准测试数据及使用99条SQL对Impala进行基准测试。内容概

05

如何编写更好的SQL查询：终极指南-第一部分

结构化查询语言（SQL）是数据挖掘分析行业不可或缺的一项技能，总的来说，学习这个技能是比较容易的。对于SQL来说，编写查询语句只是第一步，确保查询语句高效并且适合于你的数据库操作工作，才是最重要的。这个教程将会提供给你一些步骤，来评估你的查询语句。

01

Hadoop学习笔记—16.Pig框架学习

Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

02

8.如何使用RedHat7的OpenLDAP和Sentry权限集成

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson的文章介绍了多篇Redhat7的OpenLDAP的文章具体如下：《1.如何在RedHat7上安装OpenLDA并配置客户端》《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》《3.如何RedHat7上实现OpenLDAP的主

Hive Hooks介绍

Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce，查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等。值得关注的是Hive目前支持MapReduce、Tez和Spark三种执行引擎，同时Hive3也会支持联邦数据查询的功能。所以Hive还是有很大进步的空间的。

03

OnZoom基于Apache Hudi的流批一体架构实践

OnZoom是Zoom新产品，是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zoom用户提供创建、主持和盈利的活动，如健身课、音乐会、站立表演或即兴表演，以及Zoom会议平台上的音乐课程。

04

轻松驾驭Hive数仓，数据分析从未如此简单！

直接与文件系统交互，仅是Spark SQL数据应用常见case之一。Spark SQL另一典型场景是与Hive集成、构建分布式数仓。

03

实测|MatrixDB是Hive的25.8倍

本次测试主要是MatrixDB和Hive进行使用国际标准TPCH工具测试，并分别查看22条SQL的耗时。对比MatrixDB与Hive在1204GB数据量下查询性能差异。

06

0653-5.16.1-Hive Staging目录占用大量HDFS空间问题分析

在HDFS上有许多Hive Staging目录，占用了大量的空间，有些目录占用的空间甚至比原始表还大，如下截图显示：

02

Hive-简介入门

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

02

0505-使用Apache Hive3实现跨数据库的联邦查询

如今的企业内部一般都有多个系统用于数据存储和数据处理。这些不同的系统各自服务于不同的应用场景或案例。除了传统的RDBMS如Oracle DB，Teradata或PostgreSQL之外，团队可能还使用了Apache Kafka用作流式处理，使用Apache Druid来保存时序数据，使用Apache Phoenix进行快速索引查找。此外，他们可能还使用了云存储服务或HDFS来批量存储数据。

02

如何选择满足需求的SQL on Hadoop/Spark系统

作者｜梁堰波感谢“明略数据”的投稿，只要是“干货”大数据文摘就愿意发表，也欢迎各位读者参与评论，点击文末右下角“写评论”即可。在批处理时代，Hive一枝独秀；在实时交互式查询时代，呈现出的是百花齐放的局面。Hive onTez, Hive on Spark, Spark SQL, Impala等等，目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael Stonebraker的话说，现在的数据库领域已经不是”one size fit all”的时代了。那么面对这么多系统，我们改如何选择呢？这里谈谈

09

大数据主流工具，你知道几个？

导读：大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache Pig和Hive很大的发挥空间。工欲善其事必先利其器，如果选择了合适的平台和语言，会让数据的提取，处理和分析达到事半功倍的效果。未来，处理速度快和操作简单必定成为大数据分析的主流趋势。来源：大数据观察业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为

06

【转载】Impala和Hive的区别

Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，功能还在不断的完善中。

02

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）

01

Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来

随着Spark SQL和Apache Spark effort（HIVE-7292）上新Hive的引入，我们被问到了很多关于我们在这两个项目中的地位以及它们与Shark的关系。在今天的Spark峰会上，我们宣布我们正在结束Shark的开发，并将我们的资源集中到Spark SQL，这将为现有Shark用户提供一个超棒的Shark的功能。特别是，Spark SQL将提供来自Shark 0.9服务器的无缝升级路径以及与一般Spark程序集成的新功能。

02

大数据主流工具，你知道几个？

业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为数据存储，然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析，但是太复杂了。于是，开发人员开发出了类似SQL的Pig和Hive。　　大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache

07

腾讯云大数据技术介绍-数据查询方法

上节我们讲了如何利用MapReduce 快速的来查询数据：https://cloud.tencent.com/developer/article/1878432

03

Hive SQL使用过程中的奇怪现象|避坑指南

hive是基于Hadoop的一个数据仓库工具，用来进行数据的ETL，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive SQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同。

02

干货|大数据主流工具，你知道几个？

业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为数据存储，然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析，但是太复杂了。于是，开发人员开发出了类似SQL的Pig和Hive。大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache P

06

HBase操作组件：Hive、Phoenix、Lealone

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

04

【学习】开源大数据查询分析引擎现状

文|叶蓬【按：此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品，转载于此。这些基础性的研究和测试对比分析，对于我们的BDSA技术路线选定大有帮助。】引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon D

07

Hive和Hbase的各自适用场景

场景描述：先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。

02

Hadoop + Hive 数据仓库原理与架构

Hive 提供标准的 SQL 功能，Hive 的 SQL 也可以通过用户定义的函数(UDF)，用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。

02

大数据入门：Hive应用场景

在大数据的发展当中，大数据技术生态的组件，也在不断地拓展开来，而其中的Hive组件，作为Hadoop的数据仓库工具，可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享，就主要来讲讲，Hive应用场景。

04

大数据-Hive的基本概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL查询功能。

01

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

在大数据领域，Hive作为一种数据仓库解决方案，为用户提供了一种SQL接口来查询和分析存储在Hadoop集群中的数据。为了更灵活地与Hive进行交互，我们可以使用Hive JDBC（Java Database Connectivity）驱动程序。本文将深入探讨Hive JDBC的使用，为读者提供在大数据环境中进行数据交互的技术指导。

01

快速学习-Hive 基本概念

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序

01

Hive on Tez 简介

Hive on Tez 服务提供基于 Apache Hive 3.x 的基于 SQL 的数据仓库系统。Hive 3.x 中相对于以前版本的增强可以提高 SQL 查询性能、安全性和审计功能。Hive Metastore (HMS) 是一个单独的服务，不是 Hive 的一部分，甚至不一定在同一个集群上。HMS 将元数据存储在后端，用于 Hive、Impala、Spark 和其他组件。

05

值得拥有不容错过的Hive精华汇总

Hive作为Hadoop家族的重要一员，具有学习成本低，开发者可通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用。在攒库中，Hive也不负众望，得到了非常高的票数。为此，CSDN知识库特邀社区专家蒋守壮（博客： http://blog.csdn.net/jiangshouzhuang ）绘制了Hive技术图谱，帮助广大开发者更加系统、全面的学习Hive技术。 Hive知识库发布，速来关注！我要成为Hive专家团一员，筛选优质内容>>猛戳这里： http://li

03

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》。本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。

02

为什么要用Hive？

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。

04

Hive SQL底层执行过程详细剖析（好文收藏）

Hive是什么？Hive 是数据仓库工具，再具体点就是一个 SQL 解析引擎，因为它即不负责存储数据，也不负责计算数据，只负责解析 SQL，记录元数据。

03

SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

导语：SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件，实现以下三点的价值：解决业务数据孤岛，最大化数据的使用价值执行引擎最优选择，提升业务使用数据效率优化

05

SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

导语：SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件，实现以下三点的价值：解决业务数据孤岛，最大化数据的使用价值执行引擎最优选择，提升业务使用数据效率

Hive的基本概念

文章目录 Hive简介什么是Hive 为什么使用Hive？ Hive的特点 Hive的缺点 Hive架构架构图基本组成 Hive与Hadoop的关系 Hive简介什么是Hive Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转化为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，Hive可以理解为一个将SQL转化为MapReduce的任务的工具。为什么使用Hive？有H

01

Hive

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。

01

大数据技术Hbase 和 Hive 详解

目录两者的特点各自的限制应用场景 ---- 大数据技术Hbase 和 Hive 详解，今天给大家介绍一下关于零基础学习大数据视频教程之HBASE 和 HIVE 是多么重要的技术，那么两者有什么

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭