Oracle集群时间同步

在RAC中集群的时间应该是保持同步的,否则可能导致很多问题,比如:依赖于时间的应用会造成数据的错误,各种日志打印的顺序紊乱,这将会影响问题的诊断,严重的可能会导致集群宕机或者重新启动集群时节点无法加入集群。

在11gR2前,集群的时间是由NTP同步的,而在11gR2后,Oracle引入了CTSS组件,如果系统没有配置NTP,则由CTSS来同步集群时间。

NTP和CTSS是可以共存的,且NTP的优先级要高于CTSS,也就是说如果系统中同时有NTP和CTSS,集群的时间是由NTP同步的,CTSS会处于观望(Observer)模式,只有当集群关闭所有的NTP服务,CTSS才会处于激活(Active)模式。

以下是集群时间同步的两种模式:

1)NTP同步模式

节点1的octssd.log中记录发现ntp服务,ctss服务会自动切换到观望模式。

节点2的octssd.log中也会记录发现ntp服务,ctss服务为观望模式,并且同步时间的主节点是节点1。

2)CTSS同步模式

节点1的octssd.log中记录没有发现ntp服务,ctss服务为激活模式。

节点2的octssd.log中记录没有发现ntp服务,ctss服务为激活模式,同步时间的主节点是节点1,并且会告诉你集群的时间有差异,但是因为差异过小,无需调整。

虽然集群时间不一致,但是这种情况下校验结果是通过的,而且略微的差异范围内集群也会自动同步回来。

如果在我们生产系统中碰到集群时间不一致会导致什么结果,我们的排查思路是怎么样的,以下是模拟集群时间不一致的场景。

更改节点2的时间后在ASM和DB的alert日志中产生了以下的告警信息

Warning: VKTM detected a time drift.
Time drifts can result in an unexpected behavior such as time-outs. Please check trace 
file for more details.
oracle@com2:/opt/oracle/diag/rdbms/orcl/orcl2/trace>more orcl2_vktm_34715.trc
Trace file /opt/oracle/diag/rdbms/orcl/orcl2/trace/orcl2_vktm_34715.trc
Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production
With the Partitioning, Real Application Clusters, OLAP, Data Mining
and Real Application Testing options
ORACLE_HOME = /opt/oracle/products/11.2.0
System name:    Linux
Node name:      com2
Release:        3.10.0-693.11.1.el7.x86_64
Version:        #1 SMP Fri Oct 27 05:39:05 EDT 2017
Machine:        x86_64
Instance name: orcl2
Redo thread mounted by this instance: 0 <none>
Oracle process number: 4
Unix process pid: 34715, image: oracle@com2 (VKTM)


*** 2018-06-08 20:01:39.824
*** SESSION ID:(921.1) 2018-06-08 20:01:39.824
*** CLIENT ID:() 2018-06-08 20:01:39.824
*** SERVICE NAME:() 2018-06-08 20:01:39.824
*** MODULE NAME:() 2018-06-08 20:01:39.824
*** ACTION NAME:() 2018-06-08 20:01:39.824

kstmmainvktm: succeeded in setting elevated priority
highres_enabled

*** 2018-06-08 20:01:39.824
VKTM running at (1)millisec precision with DBRM quantum (100)ms
[Start] HighResTick = 1528459299824585
kstmrmtickcnt = 0 : ksudbrmseccnt[0] = 1528459299

*** 2018-06-10 20:04:00.000
kstmchkdrift (kstmhighrestimecntkeeper:highres): Time jumped forward by 
(172844812599)usec at (1528632240000738) whereas (1000000) is allowed

VKTM进程发现系统时间变了,alert日志会产生相应的告警信息,从产生的trace文件中可知,系统向前推进了172844812599微秒,也即为48小时(也就是我们模拟更改的时间),而允许的差异范围为1秒。

节点2的octssd.log中和ctss状态都记录了偏移的时间,而且校验也是失败的,校验结果是需要同步节点2的时间,此时因为集群时间差异较大,同步服务往往是无法做到的,只有手工同步才能修复。

在没有同步时间之前,重启节点2是无法正常启动的,从以下命令可知是在ctss这一步有问题,通过重新更改正确时间后,集群才能正常启动。

| 作者简介

管海涛·沃趣科技高级数据库技术专家

熟悉Oracle数据库内部机制,丰富的数据库及RAC集群层故障诊断、性能调优、OWI、数据库备份恢复及迁移经验。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

快讯 | MacOS重大漏洞:反复按键即可创建root账号

macOS又被爆出漏洞,最新版本的macOS High Sierra能让用户创建一个空密码的root账号,创建方法非常简单,只需要反复按键。 ? 攻击场景是:用...

2207
来自专栏北京马哥教育

Windows10+Ubuntu双系统安装

最近因为毕设重新回归Ubuntu,手头有一台装了Win10的ThinkPad X240s,最终成功完成了Windows 10 教育版和Ubuntu Kylin ...

6986
来自专栏沃趣科技

ASM 翻译系列第五弹:高级知识 ASM 元数据概述

原作者:Bane Radulovic 译者: 赵恩东 审核: 魏兴华 DBGeeK社群联合出品 ASM 元数据概述 ASM的元数据由ASM实例进行维...

3843
来自专栏python学习之旅

Python+Selenium笔记(二):配置谷歌+IE环境

#有的时候可能要访问外国的网站下载资料或工具,这时可能出现各种问题,例如谷歌人机验证显示不了、网站打不开等,建议使用一个FQ软件 下载免费版的就行了,土豪请随...

44111
来自专栏FreeBuf

Kali Linux渗透基础知识整理(四):维持访问

*本文原创作者:sysorem 维持访问 在获得了目标系统的访问权之后,攻击者需要进一步维持这一访问权限。使用木马程序、后门程序和rootkit来达到这一目的。...

2718
来自专栏为数不多的Android技巧

让Alfred支持拼音搜索

Alfred是个好东西,不过检索程序的时候不支持拼音搜索;我在论坛看到有人给作者反馈过,无奈作者说支持中文,他不知道拼音是什么,于是就不了了之了。举个例子:我想...

2191
来自专栏NetCore

怎样制作GHOST系统盘

制作Windows XP万能克隆镜像 战前分析:对于Windows XP,制作万能克隆时的一个重要问题就是系统激活,因为Windows XP为了防止盗版,采取...

3728
来自专栏Java帮帮-微信公众号-技术文章全总结

Java(web)项目安全漏洞及解决方式【面试+工作】

4302
来自专栏FreeBuf

Firefox/Chrome渗透测试插件推荐

注意:360安全浏览器有些比较不错的功能值得体验下(firefox/chrome有些功能我没能正常使用)不喜勿喷。firefox一直是各位渗透测试必备的利器,这...

6897
来自专栏程序员的碎碎念

如何解决Python包依赖问题

以简洁高效(指编程较为高效, 而不是运行速度)出名的Python, 在包依赖问题上有时候让人挠头.

1452

扫码关注云+社区