前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >故障分析 | 生产系统数据丢失后的恢复

故障分析 | 生产系统数据丢失后的恢复

作者头像
爱可生开源社区
发布2021-02-01 11:07:44
1.1K0
发布2021-02-01 11:07:44
举报
文章被收录于专栏:爱可生开源社区

一、背景和大概的思路

2020 年 2 月 25 日,微信的朋友圈大量转载微盟遭遇了系统重大故障(36 小时内尚未恢复核心生产数据)。从而想到本人在两周前处理的一个案例:开发人员误删除了生产数据,本人恢复的一个过程。同时给这个故障的处理过程做一个总结,也对学过的知识做一个梳理,希望对运维的同学们有一个警示作用。

2 月 13 日 23:00 接到微信通知,能否帮忙恢复数据。

系统环境信息如下:

  • 操作系统:RHEL7.5
  • 数据库:MySQL 5.7 社区版,一主两备

23:05 开始介入数据丢失的故障。确认一个大概解决问题的思路:

  1. 找到是什么人在什么时间点做了什么操作?
  2. 这个操作对系统的影响有多大,是否对其他系统有影响?确认这个操作是不是正常业务体现?
  3. 确认数据库里受到影响的日志的时间段
  4. 在仿真环境复盘整个故障
  5. 制定技术恢复方案,在仿真环境验证数据恢复方案
  6. 在仿真环境验证数据恢复后应用是否正常
  7. 备份生产环境数据,应用数据恢复方案到生产环境
  8. 生产环境绿灯测试,无误后,恢复完成

由于恢复生产数据是重大的数据调整,需要报请领导批准,需要有完备的数据回退方案。

二、数据恢复过程以及技术分析

用了 5 分钟理清了处理这个问题思路,接下来就是考虑具体的数据恢复了。在处理这个问题过程中,有两个难点需要解决。

1. 确认要恢复的 binlog 的开始和结束。

2. 根据 binlog 的开始和结束,确认数据恢复方案,以及是否需要需要排除在这个时间段发生的其他干扰数据。

首先解决第一个问题。

1. 询问开发人员,开发人员给出晚间大概 20:20 左右操作 rest 接口,调用了 activity(以下简称工作流)平台删除流程模板的操作,导致该流程模板下所有的流程实例全部被删除,在该流程模板下有 5 个在途的流程尚未处理完成。

2. 根据开发人员的描述,登录到工作流平台的数据库,查看数据库在 20:20 左右的 binlog 文件,并对 11 号 binlog 文件进行备份。

3. 将 binlog 拷贝到一个开发的服务器,通过 mysqlbinlog 进行解析。解析命令为:

代码语言:javascript
复制
mysqlbinlog -v --base64-output=decode-rows \
--skip-gtids=true --start-datetime='2020-02-13 20:10:00' \
--stop-datetime='2020-02-13 21:30:00' \
-d {$DBNAME} mysql-bin.000011 >>aa.log dbname

4. 观察解析后的 SQL,在 20:20 分并未发现大量的删除操作,确认开发人员的话不可信,做故障诊断的第一原则:任何人的话都不能全信,也不可能不信,带着疑问来找到论据证明他的说法。

5. 继续翻看解析的 binlog,20:30 开始出现大量的 DELETE 和 UPDATE 等操作,开始怀疑这一点是不是有问题的时间段。

6. 将这一段的 SQL 进行归纳总结,归纳需要操作几个表,对这个几个表的操作类型,以及操作的数据的类别(业务 ID)。同工作流平台的同事进行确认,删除一个工作流的模板,是不是涉及到这些表的变更,工作流平台的同事确认是这个过程,数据恢复的希望诞生了!

7. 根据以前的经验积累,Github 上有个开源项目 binlog2sql,可以将 binlog 的 event 翻译成 SQL 语句,也可以翻译成反向 SQL,顿时觉得这个问题应该很“容易”解决了。

8. 根据以上思考,开始在仿真环境里安装 binlog2sql 工具,该工具就是一个 Python 的程序,需要安装好 Python 环境以及需要的三方库即可,具体的使用方式请参考:https://github.com/danfengcao/binlog2sql,同时也再次感谢工具的作者曹老师。

9. 在仿真环境里,恢复生产环境有问题的实例,同时在工作流平台将应用的 JDBC 的 URL 指向新的恢复好的实例。

以上几个过程,已经解决了第一个问题,接下来我们要解决第二个问题。

1. 在以上的步骤里,已经在仿真环境复盘了生产环境的故障,同时在也仿真环境里里安装了 binlog 转成 SQL 的工具。

2. 使用 binlog2sql 的工具,解析出来错误执行的 SQL,让工作流的平台的同时进行确认,同时让工作流的同事,确认在这个时间段内没有其他的应用也在操作这个数据库。

3. 工作流的同事确认 SQL 全部为误操作产生的 SQL。

具体的确认方式如下:

1)在仿真环境模拟创建一个工作流模板。

2)在这个模板上创建几个测试实例

3)通过接口去删除这个工作流模板,观察应用产生的 SQL,以此来确认本人提供的 SQL 是否正确。

同时,工作流平台确认在问题时间段内无其他应用操作,感觉胜利在望了,该问题可以轻松解决了。

4)通过 binlog2sql 生产反向 SQL,把 SQL 应用于仿真环境,问题就能解决了,仔细观察反向 SQL 文件,发现里面有一些乱码,查看乱码字段所在的表,发现表的定义是这样的。

表中有个字段为 longblob 字段,产生的 INSERT 的 SQL 无法执行,这个问题该怎么处理??

5)这个问题到这里陷入了僵局,眼看马上就能解决的问题,发现有一个表数据无法通过 SQL 进行插入,询问工作流平台同事,这个表是否很重要,得到答复,没有这个表的数据,系统无法运转。

6)换个思路考虑一下,既然 SQL 是通过二进制的 binlog 生成的,可以考虑生成反向的二进制 binlog,然后把这一段反向的 binlog 应用到数据库,这个问题就解决了。

7)带着这个思路,去 Github 里翻看了项目。果然还真有一个:https://github.com/Meituan-Dianping/MyFlash

再次非常感谢美团点评开源的 myflash 项目。

8)利用 myflash 生成了反向二进制文件,把文件应用到数据库,工作流平台在仿真环境测试,数据完美再现。

三、问题的反思

通过以上分析,基本上就可以轻松解决这个问题。对自己提出几个问题:

问题 1:为什么不用备份恢复的方式进行数据库恢复?

在这个系统上,数据已经备份了,每天都有全备,不能使用这个恢复的原因,工作流平台里有很多应用的流程引擎,一旦做了基于时间点恢复,别的应用的系统数据一块被恢复了,将会导致别的系统会丢失一部分数据。

问题 2:为什么不基于表的数据恢复?

因为工作流平台是一个开源的平台,数据模型之间的关联性特别强,如果基于表的恢复,容易导致数据的约束出现问题。

反思 1:为什么在生产环境出现丢失数据的情况?

开发人员在生产上线过程越过了仿真环境,直接上生产,对生产上线过程并不严谨,虽然有管理流程,但是对流程的过程执行不力。

反思 2:研发人员的技术能力

研发人员对 activity 并不熟悉,对于修改流程模板的流程也不熟悉,提高研发人员的技术能力必须要提上日程。

四、后续问题

结合以上分析过程,需要指定一些辅助策略来完善发布流程。

1. 发布流程自动化,应用代码发布自动化发布,尽量避免人为参与。

2. 应用发布流程标准化,所有的脚本和上线的新的应用的步骤必须经过验证才能上线。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 爱可生开源社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景和大概的思路
  • 二、数据恢复过程以及技术分析
    • 首先解决第一个问题。
      • 以上几个过程,已经解决了第一个问题,接下来我们要解决第二个问题。
      • 三、问题的反思
        • 问题 1:为什么不用备份恢复的方式进行数据库恢复?
          • 问题 2:为什么不基于表的数据恢复?
            • 反思 1:为什么在生产环境出现丢失数据的情况?
              • 反思 2:研发人员的技术能力
              • 四、后续问题
              相关产品与服务
              云数据库 SQL Server
              腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档