),再如,移动一个文件从磁盘的hot区到cold区。...第二阶段-extent relocating,是真正干活的阶段,这个阶段,ASM的区会在磁盘组中的磁盘间移动,这个过程会花费大部分的时间。...注意:磁盘组在rebalance过程中并不会去修复存在逻辑错误或物理错误的数据,在12C中通过新增的一个ASM-scrubbing功能可以做到这一点,请参考本系列的【ASM data scrubbing...● 一个正在进行的重平衡可能会被重启,例如存储的配置改变(我们修改了配置或者由于故障导致配置改变),如果是人为导致了重平衡的失败,那么需要手工的触发重平衡才行。...虽然修改并行度会导致停止当前的重平衡,开启新的重平衡,但是根据我的观察,重平衡可以增量进行,例如旧的重平衡已经完成了对100号文件的重平衡操作,那么下次重新启动重平衡会从101号文件开始,100号文件会被跳过
但是实际的情况是数据库反复对故障设备进行IO尝试,最后导致实例异常重启。这个要么是数据库判断逻辑失误,要么是存储故障时的返回信息有误?...,如果把这个时间加上,ASM instance每次的offline操作时间就可以解释了,如果这个静默期多路径是不对IO请求响应的,将会直接导致ASM instance无法判断IO是否成功,导致了核心数据库文件...这个推测很可能是故障时的IO行为不同导致: 1) 如果故障时没有核心的controlfile/redofile的写入,或者IO写入没有发生断裂,那么在多路径静默期超时后,系统是能够恢复正常的; 2)...多路径的这些参数的默认值原因是用于容忍短时间存储IO抖动,避免系统异常的。但是在我们的项目场景中,由于Oracle数据库的IO完整性要求,导致了故障的产生。...对于双存储系统来说,一旦存储IO故障时,快速Failover到另外1个存储才是最好的选择!
但是实际的情况是数据库反复对故障设备进行IO尝试,最后导致实例异常重启。这个要么是数据库判断逻辑失误,要么是存储故障时的返回信息有误?...,ASM instance每次的offline操作时间就可以解释了,如果这个静默期多路径是不对IO请求响应的,将会直接导致ASM instance无法判断IO是否成功,导致了核心数据库文件(controlfile...这个推测很可能是故障时的IO行为不同导致: 1) 如果故障时没有核心的controlfile/redofile的写入,或者IO写入没有发生断裂,那么在多路径静默期超时后,系统是能够恢复正常的; 2) 否则由于静默期...多路径的这些参数的默认值原因是用于容忍短时间存储IO抖动,避免系统异常的。但是在我们的项目场景中,由于Oracle数据库的IO完整性要求,导致了故障的产生。...对于双存储系统来说,一旦存储IO故障时,快速Failover到另外1个存储才是最好的选择!
总第259篇 2018年 第51篇 为什么要做增量更新 美团金融的业务在过去的一段时间里发展非常快速。在业务增长的同时,我们也注意到,很多用户的支付环境,其实是在弱网环境中的。...以前端比较常见的JS资源尺寸——200KB——来进行增量计算,进行一次增量计算的时间依据文本不同的数量,从数十毫秒到十几秒甚至几十秒都有可能。...例如公司自建的 Redis Cluster ,由于根据公司业务需求进行了一些改动,导致开源的 Redis Cluster SDK ,是无法直接使用的。...这是有一定道理的,但并不是这么简单。面向普通消费者的 C 端产品,有一个特点,那就是用户的访问频度千差万别。具体到增量更新上来说,就是会出现大量不同的增量请求。...回顾与总结 服务上线运转一段时间后,我们总结了新实践所带来的效果: 日均增量计算成功率 日均增量更新占比 单日人均节省流量峰值 项目静态文件总量 99.97% 64.91% 164.07 KB 1184KB
可惜,还是黑屏,那么,到这里,可以确定的是,一定是 matrix transfrom 的问题。这再次加强了我去看 matrix trace plugin 代码的决心。 看到这里,我们可能有点乱了?...(这个方法很重要,下文还会涉及到),我们的 classes.jar文件大小不为 0,可以等到方法执行完成的时候, classes.jar 文件大小为 0。...但是这样会带来一个新的问题,增量编译的时候,不进行 copy,那我们代码的变动,永远不会生效。...,我猜测可能跟 AGP 早期的版本有关吧,可能早期,inputFullPath 的路径一定是包含在 changedFileInputFullPath 里面的,然后就写了这样的代码,后面 AGP 升级,导致增量编译有问题...定位到原因 -》 一步步找到解决方案。
天公不作美 天公不作美,存储修复好后,发现ASM实例不能将磁盘组装载,听客户说到这里,沃趣工程师当时第一反应是ASM磁盘头损坏,使ASM实例不能发现足够的ASM磁盘,进而导致磁盘组不能被装载。...事不宜迟,赶紧联系了对方的技术人员远程支持,登陆上去以后先把所有磁盘的前10M数据通过dd备份了出来,防止后面误操作还原不了现场,通过kfed工具查看ASM磁盘的磁盘头,发现磁盘头都是有效的,但是实例的报错信息又非常清晰的提示磁盘组由于没有足够的磁盘导致不能被装载...,这时,想到了amdu工具,它是用来抽取ASM磁盘组中的数据,但是它还有一个隐藏的功能,校验ASM磁盘头是否完整,莫非磁盘头看着是有效的,但是其实已经有不一致的数据了?...雪上加霜 事情进展到这里非常的顺利,可就在感觉已经离成功仅一步之遥的时候,又遇到了问题,在拉起数据库实例的过程中,后台alert日志中显示了大量的坏块,尝试把相关的数据文件offline掉再启动数据库,...QBackup 让你远离“火线” 双重备份 数据备份秒级验证 一键式操作 增量存储 ? 工程师有话说 1.由于本次故障一切的操作都远程完成,很多日志和命令都没有保留。 2.别问我dul从哪下载的。
但是如果多个磁盘同时发生故障,又或者一个磁盘故障在重平衡过程中又有磁盘故障会导致什么结果?...ASM不再立即drop不可用的磁盘,而是先置为offline状态。这样做的意义是能让ASM管理员被告知有磁盘发生故障后在disk repair time计时器到达阈值前修复故障。...如果磁盘在计时器到达阈值前恢复可用并且恢复到online状态,那么ASM会将这些修改操作应用到磁盘上去。这就是fast disk resync特性的具体用途。...如果导致磁盘离线的故障不能解决,在计时器到达阈值后,磁盘会从磁盘组中被drop掉。...Online 当一个系统管理员或者ASM管理员修复了导致磁盘不可用的故障后(可能是更换了某条故障的线缆),接下来该怎么做能让磁盘恢复online状态?这个过程能否能自动呢? 答案同样也是看情况。
最近在为Oracle单实例配置ASM时,做了一些调整,结果导致sys用户无法以操作系统身份验证登陆,即提示ORA-01017错误。本文描述了这个故障的解决过程,供大家参考。...Production on Fri Sep 22 09:52:26 2017 Copyright (c) 1982, 2013, Oracle....SS_DBA_GRP "dba" ###此处操作系统用户组定义为dba组 #define SS_OPER_GRP "oper" ###Author : Leshami #define SS_ASM_GRP...dba组导致无法通过操作系统层面实现身份认证。...三、故障解决 [oracle@centos7 ~]$ su - root Password: 增加oracle用户到dba组 [root@centos7 ~]# usermod -G dba,asmdba
记录一起由于DG主备库之间出现GAP,归档日志丢失,导致备库无法应用日志同步的故障。 通常有GAP可以通过fal,或者手工将日志拷贝到备库方式解决,但是这次gap的日志在主库已经彻底丢失。...注册进备库的控制文件中 RMAN> CATALOG START WITH '/tmp/ForStandby'; 6.应用增量 备库需要在mount状态下 RMAN> RECOVER DATABASE...(坑) 这里被坑了一把,一开始网上随便搜索的几篇教程,都没有提到这一步,导致我执行完上一步,想打开数据库就报错,没截图,但是报错内容就是找不到数据文件巴拉巴拉,提示的路径就是主库数据文件的路径。...心想玩坏了,赶紧按下面的方式查了下: select * from v$dbfile; 视图里显示的是主库数据文件的路径,想想也是刚从主库恢复了控制文件 asm中查询实际备库物理文件的位置; 回看刚才RECOVER...新添加的数据文件必须restored到备用服务器。
杨廷琨(yangtingkun) 云和恩墨 CTO 高级咨询顾问,Oracle ACE 总监,ITPUB Oracle 数据库管理版版主 编辑手记:在很多数据库的故障案例中,一个简单的疏忽可能导致问题被层层放大...,最终导致故障,这就是蝴蝶效应的传播原理。...客户的11.2.0.3 RAC数据库出现了归档失败的情况,导致单个实例出现HANG死的状况。...根据Oracle的建议,11.2.0.3的MEMORY_TARGET至少应该设置到1536M,而MEMORY_MAX_TARGET设置为4096M。...,如果短时间内无法重启DB和ASM实例,可以在问题节点配置一个第二本地归档路径,设置目标路径为本地磁盘,从而避免归档无法完成而导致的实例HANG死。
从传统小型机到 x86 架构的转变,也就意味着夸平台的数据库迁移升级。...在跨平台迁移升级方面,我们也一直在进行尝试,选择新的方案。 在2014年底我们在某运营商成功运用 xtts 增量方式实现了核心业务数据库的跨平台迁移,这应该是国内最早采取这种方案的成功案例。...的老去,11g 成为主流,12c 的日渐流行。...Oracle ASM用的越来越多,而很多dba对asm认识还是不足够,很多人认为 asm 是一个黑盒。其实并非如此。...往往由于一些误操作,就可能导致 asm 磁盘组无法 mount,几年前我们就曾经遇到过 add disk 命令没结束,ctrl+c 后,导致磁盘组 diskmount,然后再也无法 mount 了。
假设双中心间链路延时指标不稳定,也就是说数据库节点之间私网传输的延时会经常出现长延时情况,这势必导致这种延时会加倍放大到数据库节点之间的读写热点竞争上。...DWDM上设置双中心间通讯带宽的逻辑隔离以及实时可控。 3)存储网络故障泛滥 这是两种架构都会面临的问题,只是ASM冗余设计架构可能性相对高一些。...如果我们把两个中心的SAN环境整合为一张大网,物理上没有任何隔离的大网,那么可能会因为局部的存储网络故障而波及到整个存储网络。...作为结果,为了在产生故障时提供连续的保护,只需要磁盘组中的空间容量,而不需要预备一个热备(hot spare)磁盘。不建议用户创建不同尺寸的故障组,因为这将会导致在分配辅助盘区时产生问题。...ASM确保主盘区和其镜像副本不会驻留在相同的故障组中。
一、数据库故障描述 今天给大家分享一个Oracle数据库故障数据恢复案例,数据库故障表现为ASM磁盘组掉线,ASM实例不能mount。...二、数据库故障分析方法 数据库数据恢复工程师首先对底层的磁盘进行分析,通过分析组成ASM磁盘组的磁盘将ASM元数据提取出来进行进一步的分析。...通过数据库工程师进一步分析发现ASM存储元数据已经被损坏,因此导致diskgroup无法mount。...,然后按用户导入到新的数据库中,如下图所示: Oracle ASM数据库故障数据恢复解决方案3.png 四、Oracle数据库数据恢复成功 通过对ASM存储空间的重组,ASM磁盘的底层解析将恢复出的数据库文件导出后再对这些数据库文件进行一步底层解析...按用户将数据导入到新的数据库中,数据库数据恢复工程师通过抽查数据表方式对恢复成功的数据进行验证没有异常,然后通知客户进行完全验证数据,数据恢复结果完整,本次Oracle数据库数据恢复成功。
, 传rdb到slave, slave load rdb到内存, slave 从缓冲区做增量同步【缓冲区能容纳这段时间的写数据增量】)。...为了搞清楚redis的内存消耗的原因,运维用monitor抓了一段时间的请求,同时分析redis info中的相关信息。...monitor 的分析 info stats段中 半同步失败12次(可能网络中断了一段时间,且这段时间数据增量超过了redis buffer的大小,或者可能是命令阻塞过长,...第二天工作日到公司,对该故障进行复盘。 1. 发现故障时刻的redis实例带宽被打满了。...由于现货业务压测,加上风控逻辑'放大'的效果,导致key非常大,进而导致带宽满,带宽满导致限流,导致大量TCP超时重传,进而导致hgetall之类命令积压(hgetall返回数据的时间会大大延长),进而阻塞
为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了《云和恩墨技术通讯》,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考。...以下选取一个经验篇: ORACLE RAC经常会因为节点间通信或者数据库负载异常,从而导致数据库节点发生异常重启,影响生产环境部分业务,该篇文章就详细描述了数据库节点重启的分析过程。...发现数据库的asm实例也出现异常。...1 1 state changed from: UNKNOWN to: FAILED asm的资源已经offline。...查看数据库ash发现,故障前一段时间,数据库在做备份的动作: ? ? ? 磁盘有大量的写入操作,并且有大量的换入换出动作。 ? ?
Input Jars 输入给Proguard进行增量混淆,亲测如果一旦Input Jars的Reference不完备,就很容易出现Warning导致Proguard失效,即便Proguard成功,也未必跟上次构建结果保持一致...,约束规则,并没有解决根本问题; 综上,我们考虑到在日常开发构建过程中,往往提交的代码并不多,一次提交全量构建,属实恶劣,那能否针对增量修改的代码部分进行增量Proguard呢?...Patch大小也有一定帮助,有了自己的Dex优化,在将来的一段时间内我们仍然使用Proguard,这是主要原因; 下面重点介绍增量混淆核心工作: 增量混淆 先来看一下Proguard的大致输入输出流程...处于CHANGE状态,此时inline的C.func和新添加的D.fund方法copy到class a中,inline的Class D部分则需要设置ADD状态,补齐func code部分【图21】;...,利用ASM更新上次构建的Output Jars产物【图28】,从而实现增量混淆效果; ...ExtensionUtil.isDir(outputFile.absolutePath
作者简介 谢金融 云和恩墨东区交付部 Oracle 工程师,多年来从事 Oracle 第三方服务,曾服务过金融、制造业、物流、政府等许多行业的客户,精通数据库迁移、性能优化和故障诊断。...Manager OracleWorkspace Manager OracleDatabase Catalog Views OracleDatabase Packages and Types 备注:组件不同,可能导致源端的部分对象无法导入到目标端...如果 11.2.0.4 中转实例使用 ASM。那么 ASM 版本也必须是 11.2.0.4,否则报错 ORA-15295。 1.11....传输阶段,最后一次增量同步,并导入元数据 将原库中的其余用户导入到目标端中 校验数据文件,检查有无坏块 3 RMAN 方式 注意: 使用 RMAN方式有一个严重的限制:同一批次的表空间传输到目标端后,...perl xttdriver.pl -c 转换成功之后会生成 xttnewdatafiles.txt 整个过程,存放在 stageondest 的 copy,将会转换写入到 storageondest
日志文件,最近的记录只是提示GI所在存储空间使用率高,稍后清理下即可,而且目前还有一定空间剩余,显然并非是此次故障的原因。...现在登入到grid用户,确定下ASM磁盘组的状态: sqlplus / as sysasm 直接查询v$asm_diskgroup; select name, state, total_mb, free_mb...简单总结问题现状:故障发生在10月3日 下午18:04左右,所有节点都因为无法访问共享存储进而导致OCR初始化失败。目前的crs进程是没有正常启动的。...再启动: crsctl start crs 等待一段时间后查询: #观察到crs进程已经启动 root@bjdb2:/>ps -ef|grep crsd.bin|grep -v grep root...;值得注意的是,巡检发现故障后,我整个troubleshooting解决过程,RAC数据库对外都是可以提供服务的,这点也说明了RAC的稳定性!
参考的文档是19c版本: 本文是Part I Introduction。...故障组中的所有磁盘同时发生故障并不会导致数据丢失。 在创建ASM磁盘组时定义磁盘组的故障组。创建磁盘组后,将无法更改磁盘组的冗余级别。...逻辑卷LV Network-attached files (NFS) 添加磁盘到磁盘组时,可以手工指定磁盘名或者ASM自动指定名字。...循环存储到磁盘的时候,正好1个AU存储1个条带块。 9.ASM文件模板(ASM File Templates) 模板是属性值的集合,用于在创建ASM文件时指定磁盘区域、文件镜像和条带化属性。...和多路径 多路径就是提供多条物理路径,避免单条链路故障导致无法读取磁盘信息,冗余的路径存在与服务器和存储子系统之间。
领取专属 10元无门槛券
手把手带您无忧上云