Greenplum工具GPCC和GP日志中时间不匹配的问题分析

今天同事反馈了一个问题,之前看到没有太在意,虽然无伤大雅,但是想如果不重视,那么后期要遇到的问题就层出不穷,所以就作为我今天的任务之一来看看吧。能不能定位和解决,当然从事后来看,也算是找到了问题处理的一个通用思路。

问题的现象很明显:GPCC工具可以显示出GP的日志内容,但是和GP日志里的时间明显不符。

GPCC的一个截图如下,简单来说就好比Oracle的OEM一样的工具。能够查看集群的状态,做一些基本信息的收集和可视化展现。红色框图的部分就是显示日志中的错误信息。

我把日志内容放大,方便查看。

以下是从GPCC中截取到的一段内容。

截取一段GPCC中的内容供参考。

03 Apr 14:18:07

ERROR

MPP detected 1 segment failures, system is reconnected (cdbfts.c:228)

u:datax_userdb:TESTDB host:10.xxxx

而GP的日志显示如下:

2018-04-03 00:18:07.055801 CST,

"datax_user","TESTDB",p173295,th972601120,"10.xxxx","64523",2018-04-03 00:17:40 CST,1811909,con659620,cmd1,seg-1,,dx572994,x1811909,sx1,"ERROR","XX000","MPP detected 1 segment failures, system is reconnected (cdbfts.c:228)",,,,,"COPY test_map, line 11705805: ""20150826|38377|5364390|1|1|1|1|1|1|1|1|1|1|1|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|2018-04-03 00:1.

..""","COPY test.test_map ( xxxx) FROM STDIN delimiter as '|' NULL 'null' ",0,,"cdbfts.c",228,"Stack trace:

1 0xb0aefe postgres errstart (elog.c:502)

2 0xc29d9f postgres FtsHandleNetFailure (cdbfts.c:227)

3 0xbd4ca5 postgres cdbCopyEndAndFetchRejectNum (cdbcopy.c:804)

4 0x6b757a postgres CopyFromDispatch (copy.c:3823)

5 0x6c6c9c postgres DoCopyInternal (copy.c:1767)

6 0x6c8388 postgres DoCopy (copy.c:1883)

7 0x9a5f9d postgres ProcessUtility (utility.c:1100)

8 0x9a364b postgres PortalRun (pquery.c:1505)

9 0x99a5bc postgres <symbol not found> (postgres.c:1811)

10 0x99e9b9 postgres PostgresMain (postgres.c:4760)

11 0x8f8dfe postgres <symbol not found> (postmaster.c:6672)

12 0x8fba90 postgres PostmasterMain (postmaster.c:7603)

13 0x7fbeff postgres main (main.c:206)

14 0x37f901ed1d libc.so.6 __libc_start_main + 0xfd

15 0x4be869 postgres <symbol not found> + 0x4be869

"

根据时间情况来看,gpcc中显示的时间明显比GP日志的要快,认真对比了下,按照精度来算,快了14个小时。

还有一个问题是错误日志中提到的segment failure是什么意思,是否能给出一个解释。

所以我们还是得回到GP日志,需要结合上下文内容来做一个理解,回放出在那个时间点的操作。往前看很快就定位到了相关的日志,原来是在做一批次的copy操作,很可能因为网络抖动导致其中一个copy操作阻塞。

所以错误信息的基本结论如下:

通过日志可以明确在GP做copy的过程中很可能出了网络问题导致操作受阻,GP尝试重新连接segment

基本解释清了问题,我们再来看下本质的问题,为什么系统中和日志中的时间戳不同,妥妥的差了14个小时。

所以很自然的,我们会抛出一个问题:数据是怎么从日志传输到前端的?

换个问题就是数据是如何从后端传输到前端,初步的方向就是时区上面,但是我查看了部署的软件配置,并没有关于时区的配置。

在咨询了一些朋友之后,我决定再看看官方是否有相关的解释。

花了点力气,所幸找到一篇,还是在3月底更新的一篇,这个时候碰到这个问题算是很应景了。

链接如下:

https://discuss.pivotal.io/hc/en-us/articles/115005976807-Timestamp-mismatch-alerts-in-Greenplum-Command-Center-in-China-Standard-Timezone

话外音就是搜索还是要讲究点技巧,要不搜索不出来确实很尴尬。官方的建议,其实就是因为时区的特定设置,也可以理解是一个bug,在实现的时候,对于中文支持的原因导致了这个问题,如果要做一个WA,可以重置GPCC的档案库和用户的timezone,当然还需要重启GP集群生效,修改后的日期时间戳就显示不是CST,而是HKT,可能还需要评估下是否有其他的影响范围。

所以对于时间问题不一致的基本结论如下:

这个是GPCC的一个问题,在3.x版本出现,在低版本也是同样的。

要修复这个问题,需要重新设置时区的配置,重新GP集群,可以考虑后续是否有机会来做下这个问题的修复。前提还是在测试环境充分测试验证。目前先保持现状。

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2018-04-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Android干货园

Android 轻松实现百度地图定位

版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/lyhhj/article/details/49...

58310
来自专栏京东技术

闲话高并发的那些神话,看京东架构师如何把它拉下神坛

高并发也算是这几年的热门词汇了,尤其在互联网圈,开口不聊个高并发问题,都不好意思出门。高并发有那么邪乎吗?动不动就千万并发、亿级流量,听上去的确挺吓人。但仔细想...

36340
来自专栏UML

数据流程图 (DFD) 示例:食品订购系统

数据流图也称为气泡图。它通常用作创建系统概述的初步步骤,而不需要详细介绍,以后可以将其作为自上而下的分解方式进行详细说明。DFD显示将从系统输入和输出的信息类型...

59470
来自专栏程序人生

思考,快与慢

吐槽:GitBook editor 有个二B的设计-当它莫名检测出文件被外星人修改后,会弹个无法取消的对话框-检测出外部修改,ignore? discard? ...

31970
来自专栏MessageQueue

译《Time, Clocks, and the Ordering of Events in a Distrib...》

《Time, Clocks, and the Ordering of Events in a Distributed System》大概是在分布式领域被引用的最...

15420
来自专栏架构之美

五分钟学会分布式事务

18820
来自专栏java架构师

学习 WCF (1)--基础篇

  Windows Communication Foundation (WCF)是一个面向服务编程的综合分层架构。该架构的顶层称为服务模型层(Service M...

28390
来自专栏微服务生态

Faas,又一个未来?

云计算时代出现了大量XaaS形式的概念,从IaaS、PaaS、SaaS到容器云引领的CaaS,再到火热的微服务架构,以及现在越来越多被谈起的Serverless...

14040
来自专栏BeJavaGod

使用ztree.js,受益一生,十分钟学会使用tree树形结构插件

看到ztree.js,这几个字眼,毋庸置疑,那肯定就是tree树形结构了,曾经的swing年代有jtree,后来jquery年代有jstree和treeview...

46940
来自专栏程序源代码

基于PHP爬虫的博客小程序

小程序后端是基于 Wext-server-thinkphp3.2 实现的数据爬虫,使用 ThinkPHP3.2 框架开发。Wext-server-thinkph...

40510

扫码关注云+社区

领取腾讯云代金券