Greenplum集群问题修复小结

最近GP集群频繁出现了一些抖动问题,抖动造成的结果就是GP集群的segment节点中primary或者mirror会出现切换。

问题在一周的时间里出现了两次,第一次是没有明确的结果和结论,第二次的时候,是发生了部分节点的问题。

从最开始看到这个问题的时候,我的内心是崩溃的,一个很自然的想法是可能网络出现了问题。

但是经过网络层的排查,没有发现相关的信息,所以网络层出现问题的概率较低。

然后排查系统层,系统层使用了多网卡的绑定,其实问题发生时网卡的荷载是很低的,所以这个问题从系统层引发的概率也较低。

当然上面的步骤很可能是并行检查的,完全没必要按部就班的串行来做。

GP集群的一个基本的架构图如下:

显然segment节点上的primary和mirro步骤不在一台服务器上,现在的每台服务器上是部署了20个实例,10个primary,10个mirror,总体是交叉的方式。

当然还有一个很重要的步骤也是在并行做,我查看了GP节点的日志,因为涉及的节点有多个,我选取了其中一个,查看pg_log的内容。按照时间戳发现实例产生了宕机,是因为内存溢出导致的。

面对这个问题,快速修复是关键,所以果断使用gprecoverseg来修复。

使用 -o选项来转储文件,得到一个需要恢复的列表。

$ gprecoverseg -o ./recov

然后使用 -i选项来完成节点数据的恢复。

gprecoverseg -i ./recov

到了这个节点之后,其实有部分节点的角色是不对称的,需要调整过来。

可以使用gprecoverseg -r来完成最后的补充工作。

保证了业务节点的正常运行,日志还在,我们来看看日志里的信息,看看后续该怎么改进。

这个日志和之前看到的不大一样,这次是一个内存溢出。

日志信息类似:

One or more query execution processes ran out of memory on this segment. Logging memory usage.",,,,,,,0,,,,

而对应的SQL语句是多个全表扫描的大表,内部做了case when 的关联,一共使用了4个嵌套子查询语句。

这个问题看起来好像很清晰,但是对于GP集群的维护来说,还确实是需要考虑一下资源管理的。

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2018-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏木头编程 - moTzxx

Nginx 反向代理学习及实例笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011415782/article/de...

82320
来自专栏Java后端技术栈

Nginx初探

Nginx——Ngine X,是一款自由的、开源的、高性能HTTP服务器和反向代理服务器;也是一个IMAP、POP3、SMTP代理服务器;也就是说Nginx本身...

13230
来自专栏L宝宝聊IT

服务器监控cacti

56440
来自专栏后端技术探索

nginx常见面试题

Nginx的并发能力在同类型网页服务器中的表现,相对而言是比较好的,因此受到了很多企业的青睐,我国使用Nginx网站的知名用户包括腾讯、淘宝、百度、京东、新浪、...

21520
来自专栏Java技术栈

分布式作业 Elastic Job 如何动态调整?

Elastic Job 提供了简单易用的运维平台,方便用户监控、动态修改作业参数、作业操作及查询作业。

38140
来自专栏纯洁的微笑

Java程序员必备的Intellij插件

支持lombok的各种注解,从此不用写getter setter这些 可以把注解还原为原本的java代码 非常方便

14520
来自专栏Java工程师日常干货

深入浅出Nginx前言反向代理服务器?Nginx的Master-Worker模式我们的主战场:nginx.conf

Nginx是一款轻量级的Web服务器、反向代理服务器,由于它的内存占用少,启动极快,高并发能力强,在互联网项目中广泛应用。

16430
来自专栏游戏杂谈

记录一个未知的问题

Visual Studio一启用应用程序就提示“操作无法完成,因为该文件已在xx.exe中打开”,但是我启动的就是xx.exe啊

11810
来自专栏Java技术栈

Java 程序员必备的 Intellij IDEA 插件

支持lombok的各种注解,从此不用写getter setter这些 可以把注解还原为原本的java代码 非常方便

41030
来自专栏云计算

6个虚拟机备份和恢复的最佳实践

虚拟机的架构与传统的物理机有着天壤之别,因此不适合于传统的备份方案。在本文中,我们将介绍一些虚拟机备份的最佳实践。

232100

扫码关注云+社区

领取腾讯云代金券