值得拥有 不容错过的Hive精华汇总

Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,CSDN知识库特邀社区专家蒋守壮(博客: http://blog.csdn.net/jiangshouzhuang )绘制了Hive技术图谱,帮助广大开发者更加系统、全面的学习Hive技术。

Hive知识库发布,速来关注!

我要成为Hive专家团一员,筛选优质内容>>猛戳这里: http://lib.csdn.net/experts/invite

点击下载Hive高清技能图谱 Hive知识库精华内容一瞥*****基于Hadoop的数据仓库Hive基础知识*

本文从Hive概述、Hive系统架构、Hive工作原理、Hive HA基本原理、Impala五大方面详细讲解了Hive,对于每个准备学习和使用Hive的开发者,都应该读一读。

使用Hadoop和Hive获取机器数据

在探索数据存储和供给的基本机制之前,开发者需要考虑存储何种信息,如何存储它,以及打算存储多长时间。本文就Hadoop和Hive如何存储及获取数据进行了全面分析。

自定义Hive SQL Job分析工具

Hive最强大的地方是可以将SQL语句最终转化为MapReduce作业进行处理。但是,对于超级长的Hive SQL语句,开发者想要分析哪个子段所花费的查询时间,就很难了。本文围绕该问题出发,自定义Hive SQL Job分析工具,提高Hive查询性能。

建立HBase的集群和HDInsight在Hadoop中使用Hive来查询它们

本文将教你如何使用Hive Hadoop的HBase的表创建和查询HDInsight。

Hive性能优化实战分享

Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。本文分享了不少Hive优化技巧,值得一读。

Hive五种数据导入方式介绍

本文主要围绕以下六方面进行详细说明:1)Hive五种数据导入方式有哪些?2)导入表命令中有无LOCAL关键字的区别?3)使用OVERWRITE或INTO关键字的作用及区别?4)INPATH路径的限制?5)什么是动态分区插入?6)动态分区插入需要做哪些设置?

MapReduce Hive Hbase项目优化

充分的利用机器的性能,更快的完成MapReduce程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的MapReduce程序。

Hive SQL的编译过程

本文详细讲解了Hive如何将SQL编译为MapReduce,主要分为哪六个阶段,以及Hive SQL编译过程的设计,非常干货的一篇文章。

Parquet与ORC性能测试报告

本文使用Hive对三种不同的文件存储格式——Text、ORC和Parquet进行了对比测试,通过这三种文件存储格式的测试对比,ORC文件存储格式无论是在空间存储、导数据速度还是查询速度上表现的都较好一些,并且ORC可以一定程度上支持ACID操作。

Hive RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。

原文地址:http://www.kekeyun.com/thread-3392-1-1.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

想玩转工业界机器学习?先学Spark吧

为什么机器学习者需要学习spark? 关于大数据,有这样段话: “Big data is like teenage sex,everyone talks abo...

44490
来自专栏木可大大

迟到的端午节福利之大数据入门

本章将从几则故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的...

10620
来自专栏about云

适合小白入门Spark的全面教程

1.实时分析 在我们开始之前,让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。

16420
来自专栏Albert陈凯

Apache Spark快速入门

https://www.iteblog.com/archives/1408.html 一、 为什么要选择Apache Spark 当前,我们正处在一个“大数据"...

53760
来自专栏大数据学习笔记

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.1 Hive 介绍)(草稿)

第11章 Hive:SQL on Hadoop 11.1 Hive 介绍 11.1.1 为什么需要Hive? Hadoop的出现,正如当年Java语言的出现,得...

224100
来自专栏Albert陈凯

Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Go...

36160
来自专栏AI星球

想玩转工业界机器学习?先学Spark吧

作为一名学生,如何还没听说过Spark这套计算框架,那么我觉得还是留在学术界的机器学习混吧,工业界现在也许还不适合你。

14520
来自专栏xingoo, 一个梦想做发明家的程序员

[Hadoop大数据]——Hive初识

Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较...

19870
来自专栏程序员互动联盟

【专业技术】Hadoop介绍

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下...

38660
来自专栏华章科技

SparkR:数据科学家的新利器

摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发...

7420

扫码关注云+社区

领取腾讯云代金券