前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0844-5.16.2-如何清理hue元数据库里面的历史数据

0844-5.16.2-如何清理hue元数据库里面的历史数据

作者头像
Fayson
发布2021-07-05 15:24:31
1.5K0
发布2021-07-05 15:24:31
举报
文章被收录于专栏:Hadoop实操Hadoop实操

1.文档编写目的

在hue的使用过程中,由于hue会永久的保存所有数据,并且不会自动的去清理desktop_document, desktop_document2, oozie*, beeswax*这些tables里的data,因此在长时间高频次的使用后,可能会导致hue的性能下降,造成hue的登陆,运行,使用缓慢等性能问题。本文主要介绍如何进行hue的数据的清理。

  • 测试环境:

1.Redhat7.6

2.采用root用户操作

3.MariaDB版本为5.5.60

4.CDH版本5.16.2

2.清理步骤

1.下载清理脚本到hue运行节点的/opt/cloudera目录下

代码语言:javascript
复制
git clone https://github.com/cmconner156/hue_scripts.git /opt/cloudera/hue_scripts

下载下来的脚本文件如下图

2.备份当前的hue数据库

代码语言:javascript
复制
[root@cdp01 ~]# mysqldump -u root -p hue > /db_hue.sql

3.检查当前hue数据库相关表的记录数

代码语言:javascript
复制
select count(*) from desktop_document;
select count(*) from desktop_document2;
select count(*) from beeswax_session;
select count(*) from beeswax_savedquery;
select count(*) from beeswax_queryhistory;
select count(*) from oozie_job;

4.修改相关脚本权限

代码语言:javascript
复制
chmod 700 /opt/cloudera/hue_scripts/script_runner

5.用root用户运行脚本,后面的参数--keep-days 30 可以根据集群的具体情况进行调整,这个参数是说清理30天之前的记录。需要确保设置的keep-days内数据不超过3万。假如设置了keep-days为30天,数据仍有10万,那么就需要将keep-days 继续调小直到数据量保持在30,000以内。

代码语言:javascript
复制
DESKTOP_DEBUG=True /opt/cloudera/hue_scripts/script_runner hue_desktop_document_cleanup --keep-days 30

6.检查清理后的相关表的记录数,看到已经清理掉了30天前的记录

3.总结

1.需要确保hue数据库相关表查询出来的数据不超过3万。假如设置了脚本参数keep-days为30天,数据仍有10万,那么就需要将脚本参数keep-days 继续调小直到数据量保持在30,000以内。

2.根据集群的使用情况,可以设置一个定时任务来定期的进行历史数据的清理,保证hue服务性能稳定。

3.日志文件存放在/var/log/hue/hue_desktop_document_cleanup.log日志文件中,可以从该文件中看到脚本执行的日志。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档