#Hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

基于Sentry的大数据权限解决方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户...

21850

基于LDAP认证的大数据权限解决方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

LDAP是开放的Internet标准,支持跨平台的Internet协议,在业界中得到广泛认可的,并且市场上或者开源社区上的大多产品都加入了对LDAP的支持,因此...

16350

Alluxio集群搭建并整合MapReduce/Hive/Spark

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

Hive可以使用存储在Alluxio中的文件来创建新表。设置非常直接并且独立于其他的Hive表。一个示例就是将频繁使用的Hive表存在Alluxio上,从而通过...

215103

Hive全库数据迁移方案

岳涛

腾讯云 · 大数据SRE工程师 (已认证)

考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。

21570

大数据开发:Hive on Spark设计原则及架构

成都加米谷大数据

在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的...

13620

hive窗口函数/分析函数详细剖析

五分钟学大数据

在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数...

10900

九个最容易出错的 Hive sql 详解及使用注意事项

五分钟学大数据

在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flin...

10600

大数据开发:基于Hadoop的数仓设计

成都加米谷大数据

但是Impala不能替换Hive,可提供一个统一的平台用于实时查询。Impala的运行依赖于Hive的元数据(Metastore)。Impala和Hive采用相...

11700

大数据开发:Hive小文件合并

成都加米谷大数据

Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具,最初的存储还是落地到HDFS上,这其中就...

20730

大数据入门:Hive应用场景

成都加米谷大数据

Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hado...

27130

大数据入门:Impala框架基础简介

成都加米谷大数据

在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就...

13220

大数据概念解析之数据仓库简介

成都加米谷大数据

在大数据系统平台当中,数据存储、数据库、数据仓库是非常重要的概念,共同支持大数据存储的实际需求。在大数据处理当中,大数据存储这个环节,数据仓库技术起到重要的作用...

10320

Hive UDF/UDAF 总结

windism

在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,这类函数分为三大类:

46220

Hadoop生态圈:Hadoop技术入门书单

成都加米谷大数据

在大数据开源系统框架当中,Hadoop始终是一个值得关注的重点,经过这么多年的发展,Hadoop依然占据着重要的市场地位。学大数据,必学Hadoop,也说明了H...

27460

Hive Join优化

大数据学习与分享

在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:

26020

Hive如何实现自增序列

大数据学习与分享

在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如事实表和维度表之间的"代理主键")。虽然Hive不像RDBMS如my...

27840

Hive 常见的数据倾斜及调优技巧

大数据技术架构

Hive在执行MapReduce任务时经常会碰到数据倾斜的问题,表现为一个或者几个reduce节点运行很慢,延长了整个任务完成的时间,这是由于某些key的条数比...

79110

SparkSql读取hive表tblproperties异常

Fayson

从报错来看,该hive表的tblproperites有问题,tblproperites中的json字段无法正常解析,导致SparkSql读取该表出错。Hive和...

65210

大数据技术之Sqoop

卡其

将关系型数据库中的数据导入到HDFS(包括Hive,HBase)中,如果导入的是Hive,那么当Hive中没有对应表时,则自动创建。

27400

mysql存储引擎及适用场景

vimsudoers

MySQL存储引擎有MyISAM、InnoDB、MEMORY、CVS、MRG_MyISAM、BLACKHOLE、SEQUENCE、ARCHIVE等,常用的有In...

24520

扫码关注云+社区

领取腾讯云代金券