#Hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

Hadoop,凉了?那还需要它吗?

Yajun_

Hive 的兼容性通常和Hadoop 的版本绑定在一起——Hive 3.x 和 Hadoop 3.x 一起,Hive 2.x 和 Hadoop 2.x 一起,以...

4520

玩转HBase百亿级数据扫描

Yajun_

出于中通业务场景的特殊性,我们需要大量的回刷7-15天的数据,如果全部用离线抽取的方式,会给业务系统带来巨大压力,所以利用Hbaserowkey更新的特性,来存...

6340

Apache Parquet 干货分享

Yajun_

Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Pro...

4030

Spark调优 | Spark SQL参数调优

王知无

Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前s...

8540

Hive 系列 之 基础知识和操作合集

kk大数据

(2)内部表由 Hive 自身管理,外部表由 HDFS 管理(也就是数据在别的目录下,但元数据还是由 Hive 管理的)

5630

Hive 系列 之 开篇

kk大数据

Hiveserver2 是一个服务端接口,使远程客户端可以执行对Hive 的查询并返回。启动 Hiveserver2 后,就可以使用jdbc,odbc,beel...

8050

Hive 系列 之 UDF,UDTF,UDAF

kk大数据

Hive 的 类 sql 给 开发者和分析者带来了极大的便利,使用 sql 就可以完成海量数据的处理,但是有时候,hive 自带的一些函数可能无法满足需求,这个...

5120

Apache Kylin 从零开始构建Cube(含优化策略)

王知无

Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并将结果存储到HBase中,为海量数据的查询和分析提供...

5620

0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续

Fayson

新引入的“Hive execution service”仅支持Compute集群,Base或Regular集群不支持该服务。要使Hue能够在Compute集群上...

9610

Flume浅度学习指南

暴走大数据

Flume is a distributed, reliable, and available service for efficiently collecti...

7730

hive与hbase的联系与区别

ZONGLYN

6530

Spark 在Spark2.0中如何使用SparkSession

smartsi

接下来,我们将创建一个 Hive 表,并使用 SparkSession 对象对其进行查询,就像使用 HiveContext 一样。

9240

Hive Grouping Sets,CUBE与ROLLUP

smartsi

这篇文章描述了 SELECT 语句 GROUP BY 子句的增强聚合功能 GROUPING SETS。GROUPING SETS 子句是 SELECT 语句的 ...

7320

20个Web开发者和设计师必备在线工具

用户4962466

互联网已经成为我们生活中无法割裂的一部分,生活中越来越多的服务都与网络紧密的结合到一起,深刻地影响着我们的生活和工作,很难想象没了它我们的日常生活会多麻烦。我们...

7200

比hive快10倍的大数据查询利器-- presto

July

NNW · 高级DBA (已认证)

目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一...

12640

Hive 启用压缩

smartsi

对于数据密集型任务,I/O操作和网络数据传输需要花费相当长的时间才能完成。通过在 Hive 中启用压缩功能,我们可以提高 Hive 查询的性能,并节省 HDFS...

6920

Hive 抽样Sampling

smartsi

Block 抽样功能在 Hive 0.8 版本开始引入。具体参阅JIRA - Input Sampling By Splits

5630

Hive Count Distinct优化

smartsi

目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这种细节的隐藏在带来便利性的同时,也对计算作业的...

8520

Hive 本地执行模式

smartsi

假设你正在运行一些复杂的 Hive 查询,我们都知道这会在后台触发 MapReduce 作业并为你提供输出。如果 Hive 中的数据比较大,这种方法比较有效,但...

5220

Hive 子查询

smartsi

Hive仅在FROM子句中支持子查询(从Hive 0.12版本开始)。必须为子查询指定名称,因为FROM子句中的每个表都必须具有名称。子查询 SELECT 列表...

9340

扫码关注云+社区

领取腾讯云代金券