前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive 如何修改分区列?

Hive 如何修改分区列?

作者头像
披头
发布2022-12-19 18:10:32
2.4K0
发布2022-12-19 18:10:32
举报
文章被收录于专栏:datartisan

Hive 分区就是将数据按照数据表的某列或者某几列分为多个区域进行存储,这里的区域是指 hdfs 上的文件夹。按照某几列进行分区,就是说按照某列分区后的数据,继续按照不同的分区列进行分区。创建分区后,指定分区值即可直接查询该分区的数据,能够有效提高查询性能。

那么,如果分区列指定错了,可以进行修改吗?很遗憾,是不能直接对分区列进行修改的,因为数据已经按照分区列进行存储了。只能通过迂回的方式实现。下面介绍一种实现方式,操作步骤如下:

创建新的分区表

因为是要修改分区,所以不能通过如下方式创建分区表(这种方式分区不变)

代码语言:javascript
复制
CREATE TABLE new_table_name like old_table_name;

这里,我们先通过 SHOW CREATE old_table_name 得到原表的建表语句。

代码语言:javascript
复制
> show create  table old_table_name;
OK
createtab_stmt
CREATE TABLE `old_table_name`(
  `login_id` string,
  `login_name` string,
  `login_date` string) -- 注意看这里
PARTITIONED BY (
  `updatetime` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoop102/user/hive/warehouse/test.db/old_table_name'
TBLPROPERTIES (
  'transient_lastDdlTime'='1671350905')
Time taken: 0.045 seconds, Fetched: 20 row(s)

然后修改其分区字段及原分区列,用新的 SQL 语句创建新的分区表。

代码语言:javascript
复制
> CREATE TABLE `new_table_name`(
  `login_id` string,
  `login_name` string,
  `updatetime` string) -- 注意看这里
PARTITIONED BY (
  `login_date` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
OK
Time taken: 0.048 seconds

此处,通过建表语句的调整实现了分区列的调整。

将旧分区表数据插入到新分区表

由于原分区表中,分区数可能有很多,通过手动指定分区的方式复制数据并不可取,Hive 开发者也预料到了这个需求场景,并提供了动态分区,动态分区简化了我们插入数据时的繁琐操作。

  • 开启动态分区
代码语言:javascript
复制
set hive.exec.dynamic.partition=true;  
  • 修改动态分区模式为不严格(默认值 strict
代码语言:javascript
复制
set hive.exec.dynamic.partition.mode=nonstrict;
  • 修改一个 DML 操作可以创建的最大动态分区数(默认值 1000
代码语言:javascript
复制
set hive.exec.max.dynamic.partitions=100000;
  • 修改每个节点生成动态分区的最大个数(默认值 100
代码语言:javascript
复制
set hive.exec.max.dynamic.partitions.pernode=10000;  
  • 修改一个 DML 操作可以创建的最大文件数,默认是(默认值 100000
代码语言:javascript
复制
set hive.exec.max.created.files=150000;
  • 将原表数据插入到新的动态分区表
代码语言:javascript
复制
INSERT OVERWRITE INTO new_table_name PARTITION (login_date)
SELECT login_id, login_name, updatetime, login_date
FROM old_table_name

删除原表

代码语言:javascript
复制
TRUNCATE TABLE old_table_name;

DROP TABLE old_table_name;

按照新分区表 SQL 语句创建原表

代码语言:javascript
复制
CREATE TABLE `old_table_name`(
  `login_id` string,
  `login_name` string,
  `updatetime` string) -- 注意看这里
PARTITIONED BY (
  `login_date` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

将新分区表中的数据插入到原表

代码语言:javascript
复制
INSERT OVERWRITE INTO old_table_name PARTITION (login_date)
SELECT *
FROM new_table_name

至此,通过新分区表的中转实现了原表分区列的修改,可以说非常麻烦,所以,建议大家建表的时候审慎检查,尽量减少分区列的调整。

end

如果今天的分享对你有帮助的话,请毫不犹豫的三连吧~~~

你的鼓励就是我创作的动力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学探究 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 创建新的分区表
  • 将旧分区表数据插入到新分区表
  • 删除原表
  • 按照新分区表 SQL 语句创建原表
  • 将新分区表中的数据插入到原表
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档