关于客户“前沿数控”数据完整性受损的技术复盘

近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。

复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

痛定思痛,腾讯云希望在尽力帮助客户解决本次问题的同时,也通过相关机制的优化避免类似情况的再度发生。

故障过程复盘

当天上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

故障原因复盘

本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

数据搬迁过程中的违规操作主要如下两点:

  • 第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;
  • 第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云对此再次表示最诚恳的歉意。

改进措施:

经过技术复盘,腾讯云技术团队深入到每个环节,通过责任到人与流程闭环的双管齐下,相应作出如下的加强和改进措施:

  • 首先,我们将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升我们常规运维自动化和流程化,降低人工干预。同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。
  • 其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,我们优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

进一步建议:

腾讯云自2016年3月以来一直在提供免费的快照功能,可以对重要数据进行定期备份。同时出于对客户数据隐私性和安全性的考虑,客户可以自由选择开启或者不开启这一免费功能。腾讯云在这里也呼吁客户开启这一功能,进一步提升自身数据的安全性。

未来,本着对客户数据最大的敬畏,腾讯云将继续探索更科学的机制,避免类似事件再次发生。

腾讯云

2018年08月07日

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏重庆的技术分享区

微服务 - 从想法到迈出第一步

原文地址:https://codeburst.io/microservices-from-idea-to-starting-line-d6e8cd5e9bb4?...

1431
来自专栏云计算D1net

四种方法简化应用云安全代理

云安全访问代理工具为云用户提供了一个额外的保护层,但是IT部门必须仔细选择合适的工具,以避免拖累云性能表现。 安全性仍然是企业IT部门所面临的一道难题。一方面要...

4026
来自专栏即时通讯技术

达达O2O后台架构演进实践:从0到4000高并发请求背后的努力

达达创立于2014年5月,业务覆盖全国37个城市,拥有130万注册众包配送员,日均配送百万单,是全国领先的最后三公里物流配送平台。 达达的业务模式与滴滴以及Ub...

2083
来自专栏跨界架构师

分布式系统关注点——初识「高可用」

        咳咳,从这篇开始,正式拉开分布式系统关注点中,我认为第二重要的内容 —— 「高可用」。

872
来自专栏云加头条

张青林:TXSQL是什么?云计算时代数据库核弹头

腾讯MySQL内核研发专家张青林在腾讯“云+未来”峰会的「开发者专场」做了主题为“TXSQL:云计算时代数据库核弹头”的技术内容分享,本次分享从五个方面介绍TX...

6662
来自专栏美团技术团队

孵化业务快速落地与优化

海外酒店是酒旅事业群第一个孵化的业务,从2016年9月份开始到现在已经半年多的时间。在业务后台搭建、成长、优化过程中,经历了很多的思考与选择。 主要分为下面几个...

3709
来自专栏AI研习社

猿桌会 | Python 全局解释器锁与并发

Python 拥有卓越的可读性和极高的自由度,但 CPython中的全局解释器锁(GIL)严重限制了语言的并发性。其实,Python生态系统中存在诸多工具可以解...

1163
来自专栏腾讯技术工程官方号的专栏

腾讯研发专家:TXSQL如何成为云计算时代数据库核弹头?

2431
来自专栏互联网数据官iCDO

如何理解谷歌眼中的低质量页面?

译者:Nic 审校:朱玉雪 本文长度为3529字,预估阅读时间6分钟。 我们今天要向大家介绍的是谷歌是通过哪些因素来判定登录页面质量的高低 衡量页面质量的高...

2436
来自专栏张善友的专栏

MongoDB 如何使定制电子商务变得简单

开源电子商务软件市场已经历了众多发展阶段,您可能已经通过 osCommerce、Magento、Zen Cart、PrestaShop、Spree 等流行平台而...

2157

扫码关注云+社区