首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

混沌演练实践(一)

Tech 导读 本文从整体介绍了混沌演练的实践流程,读者可以通过本文了解到混沌实践的典型演练场景、重要考核指标以及风险控制方案等。...2.1 演练流程介绍 目前借助京东云RPA自动化服务平台进行混沌攻防演练,测试人员为红方(攻击方),研发人员为蓝方(防守方),红方随机挑选一个时间段,针对服务系统注入故障(比如:CPU使用率达到...红方: 创建演练计划:通过访问RPA自动化服务平台,进入工具市场——演练类,选择不同的故障方案,点击“立即执行”; 演练配置:点击执行后,进入配置页面,选择执行环境,选取要演练的应用,并随机选取要演练的实例...:演练中发现问题要及时恢复,演练后对模拟故障的实例机器进行重启恢复,确保机器正常运行,各项性能指标恢复; 图2 混沌演练平台介绍 2.2 初次演练实践 2.2.1 准备阶段 混沌演练准备阶段是设计演练策略...3.1 典型演练场景 借助于平台进行混沌演练,可以降低演练的学习成本,提高演练的效率,目前平台对于常用的演练场景已经支持,大家可以在平台进入工具市场选择相应的演练场景。

31120

【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!

近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯云混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。...由此,混沌平台应运而生。 组织上,成立混沌蓝军,依托腾讯云混沌演练平台,以第三方视角对所有云产品进行非通知的月度大规模实战演习,驱动各个产品达成容灾标准,最终促进达成0故障目标。...以腾讯云机房断电等重大故障演练实践为例,腾讯云混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性: 1)云产品服务稳定性:故障注入以后...混沌工程平台能力评估 除了斩获三项优秀案例外,在中国信通院“2022下半年系统稳定性保障领域评估-混沌工程平台能力评估”中,腾讯云混沌演练平台(CFG)还凭借灵活、便捷、完善的故障演习功能和全面的安全防护保障能力...腾讯云混沌演练平台将持续完善自动化、可视化的混沌实验部署工具,探索致力于打造一个更完善的稳定性运营平台,满足企业在云迁移、云原生过程中的稳定性保障需求。

84350
您找到你想要的搜索结果了吗?
是的
没有找到

【云顾问-混沌演练】阅文游戏:新游上线混沌演练实践

腾讯云联合阅文游戏针对服务器宕机,数据库不可用和单可用区故障等常见故障场景,从搭建同城多活架构,业务链路压测到混沌容灾演练三个方面着手,对《斗破苍穹:三年之约》的平台服和游戏服的架构进行夯实加固 三、...为此次演练腾讯云混沌团队提供基于混沌工程原理及腾讯云最佳实践的故障演练平台,内含丰富的故障动作库和典型的行业经验模板,提供高效的可视化演练和可靠的安全防护策略,并在结束演练后提供完备的演练报告。...创建演练任务 根据预先制定的演练方案,在腾讯云混沌演练平台上提前创建好演练任务,包括选取经验模板,编排动作组,选择演练实例对象,配置动作执行方式和监控指标执行故障注入云顾问·混沌演练平台提供可视化视图,...用户在演练过程中可以实时查看故障动作执行状态(成功/失败/执行中)和注入效果:观测演练结果通过提前配置的业务侧告警,云监控告警以及混沌演练平台执行记录可以及时观察到演练过程及结果是否符合预期以及故障注入后系统稳态指标的表现...从观测结果可以看出混沌演练平台故障注入成功,目标实例均呈现出应有的表现,并能按照预期进行切换,完全模拟出了预期的故障场景 四、 混沌演练的收益通过游戏服+平台服的多次混沌演练,该款游戏高可用架构改造后的系统稳定性和可靠性得到了有效验证

27120

【云顾问-混沌演练】欢乐互娱:新游上线混沌演练实践

为确保新游顺利上线,欢乐互娱与腾讯云混沌演练平台展开紧密合作,共同针对三大核心业务场景的可用性进行了大规模容灾演练,最终保障了新游的顺利发行上线。...三、 混沌故障演练过程 在新游上线的背景下,欢乐互娱携手腾讯云混沌演练平台,通过梳理游戏行业痛点问题,结合业务背景,重点提炼出了服务器、网络、数据库等场景下的故障容灾演练,以充分评估新游戏产品的稳定性表现...在腾讯云混沌演练平台(CFG)上,业务团队可以轻松完成实例选取、演练场景动作编排、可视化故障注入和演练报告等全流程演练。...五、 腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)是一款结合了腾讯内部实践的针对腾讯云上资源进行混沌工程实践的SaaS产品。...附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持

750110

【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践

演练实施 本次演练主要基于“腾讯云混沌演练平台(Chaotic Fault Generator)“进行。...3.1 创建演练任务 根据演练方案,在腾讯云混沌演练平台上提前创建演练任务,主要完成演练对象实例范围选取、故障场景动作的编排、添加业务稳态监控指标等。...目前平台提供100余种故障原子动作,支持用户在一次演练任务中对故障原子动作进行灵活的串行、并行组合编排,满足用户多样化的演练需求。 3.2 执行故障注入 通过混沌演练平台,执行故障注入操作。...借助自动化演练平台,提高演练效率 如果没有一个自动化的混沌演练平台,业务运维团队需要自主完成混沌实验设计,包括编写脚本、开发和测试注入工具,才能构建起一个复杂场景的故障模拟能力。...而腾讯云混沌演练平台就是一个面向用户提供全生命周期故障演练服务的自动化平台,它提供各个行业丰富的演练模板和100+故障原子动作,支持用户方便快捷地进行故障演练编排、自动化执行故障注入、观测监控指标、导出演练报告等

35020

混沌工程和故障演练

混沌工程是一门学科,提供了基本的理论指导。而故障演练混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。 故障演练的实施要点 混沌工程为稳定性验证实验提供了可实践的指导。...用于混沌工程的开源工具有很多,站在团队的角度,要选取平台化工具,作为故障演练的统一入口,需要提供方便、易用的交互方式,以自动完成故障注入。...提供多样化、可视化的故障注入自动化平台,作为各种演练和故障测试及验证的统一入口。 故障注入平台能够帮助业务人员发现更多影响业务稳定性的未知问题,验证警告的有效性和完整性,以及业务的故障预案是否有效。...这里推荐使用阿里巴巴的开源平台ChaosBlade。...2.建立稳定性指标 既然故障演练混沌工程的实践,那么所有的演练都要站在混沌工程“建立一个围绕稳定状态行为的假说”的基础之上开始设计。

52830

【云顾问-混沌】 跨 AZ 容灾混沌演练

背景 随着云计算技术的快速发展,越来越多的企业和组织将其业务迁移到云平台,以实现更高效、灵活和可扩展的资源管理。...进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。...腾讯云基于该背景,推出了混沌演练平台,助力用户进行云上稳定性治理,并结合行业经验,形成了跨 AZ 的容灾演练模版,用户可以基于该模版一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷!...借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。...点击之后可选择去使用,可以直接创建对应的混沌演练任务。 2. 选择对应的云上实例资源或添加其他故障场景,即可开始跨可用区容灾混沌演练

24310

实时数仓混沌演练实践

从投放管理平台的链路全景图来看,实时数仓是不可或缺的一环,可以快速处理海量数据,并迅速分析出有效信息,同时支持投放管理平台的手动控盘。...二、演练范围为了能更细致反应出混沌演练情况,根据演练的内容不同,将实时数仓混沌分为两部分:技术侧和业务侧。...本篇主要和大家分享基于业务侧的实时数仓混沌演练过程:1.编写演练SOPSOP是一种标准的作业程序,就是将某一事件的操作步骤和要求,进行细化、量化及优化,形成一种标准的操作过程,关于业务侧混沌,尤其是实时数仓数据相关的演练...蓝军:蓝军已完成数据准备,请红军在演练前确保环境OK且已完成规则配置,另外务必将演练时间计划及时同步通知到下游关联方;蓝军:已完成注入。6.告警触发通知红军在演练前,可通过监控平台提前配置好防御规则。...这些都需要团队进一步去探索、解决,同时在演练的过程中,我们将不断积累、丰富演练case、完善演练库,后续计划通过引入工具(平台)、建立演练协助机制、定期定时演练等手段,使混沌演练更加自动化、规范化、常态化

25520

混合云容灾混沌演练

但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。...腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷!...混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现...如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。...点击之后可选择去使用,可以直接创建对应的混沌演练任务。

13710

【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘

工具建设: 建设腾讯云混沌演练平台,打造混沌演习全生命周期产品能力,确保团队能轻松实践混沌工程。...虽然市场上有众多开源和商业化的演练工具,但腾讯云始终努力寻求更高效地进行混沌工程实践的方法,基于腾讯云业务自身特点自研了腾讯云混沌演练平台产品,产品提供以下能力: 演习全生命周期支持:将演习过程划分为三个主要阶段...三、实践效果:混沌演练常态化、规模化,业务稳定性稳步提升,混沌平台能力达到先进级 过去几年,腾讯云在内部持续推动混沌工程实践展开,云上故障数量和故障影响时长都显著下降。...为此,自2021年起,团队把面向腾讯内部几百款产品在演练实施过程中的经验和方法进行产品化,推出混沌工程产品腾讯云混沌演练平台,力求为客户提供故障注入能力和生命周期管理能力等实质性服务。...六、腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患

1K110

【云顾问-混沌】Redis故障演练-主从切换

为何需要进行Redis的混沌演练? 当Redis进行主备切换之后,往往会有以下几个影响: 数据一致性问题:在主从切换的瞬间,可能会出现数据不一致的情况,如主节点的部分数据未同步到从节点。...此时进行Redis的主从切换混沌演练便是一个科学的方法。...腾讯云混沌工程实践 Redis 集群是业务存储热数据的重要组件,为保证业务的可用性,依靠集群内节点之间的 Gossip 协议来进行节点状态的判断,默认的心跳超时时间 (cluster-node-timeout...腾讯云混沌演练平台基于以上特性,提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作,您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。...优先跨可用区切换 模拟跨可用区整体故障时,其他可用区节点提主场景 通过混沌工程实现Redis主备切换的故障注入,企业可以更好地了解系统在故障场景下的表现,提前发现潜在问题,确保业务的稳定运行。

27910

【云顾问-混沌】CPU 高负载故障演练

为何需要进行 CPU 高负载故障演练? 服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。...腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理 使用腾讯云混沌演练平台实施CPU高负载。...故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent,并安装至云CVM服务器上,然后使用tat通道下发命令,启动一个名为chaos_burncpu 的进程,空跑for循环来消耗CPU时间片...快速开始 可前往腾讯云混沌演练平台,参照CVM 资源利用率高指引文档进行演习。

14410

【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo

确定故障场景和工具:确定需要模拟的故障场景和需要使用的平台工具;本次演练大部分由用户采用混沌演练平台操作,少部分采用运维手动支持; 5....数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。...通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。...腾讯云混沌演练平台(Chaotic Fault Generator)是腾讯云针推出的一款针对腾讯云上资源进行混沌工程实践的Saas产品,平台提供覆盖一站式故障演习服务: ● 演练前,平台提供演练计划功能...附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持

1.1K142

混沌工程】Chaos Mesh:Kubernetes 的混沌工程平台

Kubernetes 的混沌工程平台。 Chaos Mesh 是云原生计算基金会 (CNCF) 托管的项目。它是一个云原生混沌工程平台,可在 Kubernetes 环境中编排混沌。...在当前阶段,它具有以下组件: Chaos Operator:混沌编排的核心组件。完全开源。 Chaos Dashboard:用于管理、设计、监控混沌实验的 Web UI。...How SpiceDB uses Chaos Mesh to verify protection ByteDance 字节跳动自主研发的混沌工程平台主要用于公司自有技术体系。...由于涉及到云原生部署服务,字节跳动集成了Chaos Mesh作为底层故障注入引擎,是对字节跳动混沌工程平台的重要补充。 To be added....此外,他们拥有云平台的用户也会访问 Chaos Mesh 来测试用户服务的稳定性。

1.2K20

混沌测试平台 Chaos Mesh

混沌测试平台 Chaos Mesh Chaos Mesh 是PingCap团队研发的一款用于测试kubernetes环境的工具。通过人为地在集群中注入故障来检测集群对故障的处理以及恢复能力。...混沌测试与针对某个应用测试的区别为:前者更倾向于在现有大规模集群中进行测试,影响因素可能来自集群中的方方面面;而后者更专注于对应用本身功能的测试。...GitHub上目前有两款star数高的混沌项目,litmus和chaos-mesh,这两款的功能和场景都基本类似,前者目前提供的混沌注入功能比较多,但后者提供了简单的UI界面。...目前支持的混沌测试如下: # kubectl get crd NAME CREATED AT iochaos.chaos-mesh.org...cron: "@every 5m" 总体来说,混沌测试更像是集成验证的一部分,通过在现有运行环境中注入故障来发现系统或应用的兼容性问题,故障恢复能力问题等。

2.7K20
领券