用户反馈分析看板加载速度慢,在业务高峰期,看板页面还会有加载异常的情况。报表列表加载速度慢,严重时无法加载。用户在进行一些选项配置时,还会有一些加载超时或接口报错的情况。
前期处理:出现该问题后,用户侧运维认为是集群资源不足导致,遂进行了CDH集群节点资源扩容。扩容后集群负载如图,仅有一定程度的改善。节点CPU load在业务高峰期仍然处于打满的状态。问题未能得以解决。
通过检查CDH集群的计算节点,发现用户侧在管理集群时将hdfs的DataNode与kudu服务的Tablet Server一直混合部署在相同的节点上。hive组件与kudu组件的数据均通过Impala来进行驱动。虽然用户扩容了两台节点,也通过haproxy对Impalad进行了负载均衡。但是当查询处于高峰期时,混布了DataNode与Tablet Server的节点的CPU均被打满。造成大量请求超时,而新扩容的两台节点负载与资源使用率均不高。
通过对数据库中各个表的排查与分析。用户配置的报表所涉及使用到的的数据表大多以kudu作为存储引擎。少量报表数据用于离线任务统计。会提交较为消耗资源的hive SQL任务。进一步加剧了节点资源的消耗。同时kudu与Impala的部分参数设置的不合理。导致请求大量积压排队。
在重新调整优化后:
我们能够看到新加入集群的节点的磁盘,已经有kudu数据进行存储。在进行查询请求时,原有节点的资源使用率显著下降,集群节点整体负载趋于平稳。
用户侧的报表与看板也恢复正常。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。