腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

岑玉海

专栏作者

105

文章

133854

阅读量

56

订阅数

Hive Tuning(五) 标准调优清单

Hive的标准调优清单，我们可以对照着来做我们的查询优化！

2018-03-01

7780

Hive Tuning(四) 从查询计划看hive.auto.convert.join的好处

今天我们来讲一下如何看懂Hive的查询计划。 hive的执行计划包括三部分 – Abstract syntax tree – 可以直接忽略 – Stage dependencies – 依赖

2018-03-01

8630

Carbondata源码系列（一）文件生成过程

hive https apache

在滴滴的两年一直在加班，人也变懒了，就很少再写博客了，最近在进行Carbondata和hive集成方面的工作，于是乎需要对Carbondata进行深入的研究。于是新开一个系列，记录自己学习Carbondata的点点滴滴。 1、环境准备当前版本是1.2.0-SNAPSHOT git clone https://github.com/apache/carbondata.git 先用IDEA打开carbondata的代码，点击上方的View -> Tool Windows -> Maven Projects,

2018-03-01

1.7K0

Hive Tunning（三）最佳实践

在上一讲的基础上，我们来做来一个实际的例子来展示如何在实操中进行高效的hive查询作业。（1）首先我们建立一个表 CREATE EXTERNAL TABLE pos_staging( txnid STRING, txntime STRING, givenname STRING, lastname STRING, postalcode STRING, storeid STRING, indl

2018-03-01

1.2K0

Hbase 学习（十一）使用hive往hbase当中导入数据

　　我们可以有很多方式可以把数据导入到hbase当中，比如说用map-reduce，使用TableOutputFormat这个类，但是这种方式不是最优的方式。　　Bulk的方式直接生成HFiles，写入到文件系统当中，这种方式的效率很高。　　一般的步骤有两步　　（1）使用ImportTsv或者import工具或者自己写程序用hive/pig生成HFiles 　　（2）用completebulkload把HFiles加载到hdfs上　　ImportTsv能把用Tab分隔的数据很方便的导入到hbase当

2018-03-01

1.9K0

Hive Tunning 补充关于bucket

　　在前面的几篇文章当中一直有一个概念bucketing不清楚到底是怎么回事。　　网友南京-李先森给了他收集的一些资料，如下：　　Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000；hash 值为

2018-02-28

1.2K0

Hive Tunning（二）优化存储

接着上一章我们讲的hive的连接策略，现在我们讲一下hive的数据存储。下面是hive支持的数据存储格式，有我们常见的文本，JSON，XML，这里我们主要讲一下ORCFile。 Built-in Formats: – ORCFile – RCFile – Avro – Delimited Text – Regular Expression – S3 Logfile – Typed Bytes • 3

2018-02-28

1.2K0

Hive Tuning（一）连接策略

群里共享了一本hive调优的书记，名叫《Hive Tunning》，就忍不住开始看了，也顺便记录一下自己学到的东西，备忘！首先，这是hive的数据摘要，别问我什么意思，我也没看懂。好，我们正式

2018-02-28

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态