春节期间阅读了奇书《人类简史》,作者是以色列作家尤瓦尔·赫拉利。书中不少观点刷新了我的认知,现摘录了13条有趣的段落分享与大家。
企业如何规模化地赋能团队,以应对上云后所遭遇的未知暗债?在解决这个复杂问题的过程中,混沌工程诞生了。
在 InfoQ 混沌工程系列访谈中,企业如今对混沌工程普遍的感知是:企业内部不同部门认知不统一,业内对混沌工程没有相对统一的评价标准。随着云基础设施的广泛应用,混沌工程不断与国内大公司碰撞出火花。2020 年初,中国信通院开始组织专家进行混沌工程技术研究,提出应用混沌工程方法来验证云原生系统的韧性架构。
标题 一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 ## 标题 # 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题 列表 1. 无序列表 无序列表(01) 继续分列表(001) 继续分列表(002) 继续分列表(003) 无序列表(02) 继续分列表(001) 继续分列表(0001) 继续分列表(0002) 继续分列表(0003) 继续分列表(002) 继续分列表(003) 2. 有序列表 有序列表(01)
CKafka荣获最高级认证 今天,由中国信通院和混沌工程实验室联合举办的混沌工程技术沙龙--金融行业精品专场在北京召开。本次技术沙龙上发布了金融级产品稳定性测评成果,在分布式系统稳定性评估体系的获奖名单中,腾讯云消息队列CKafka通过首批消息队列服务稳定性认证,荣获最高级别“先进级”认证,这项认证肯定了CKafka在数据安全性、系统稳定性上的产品能力和技术实力。 根据混沌测试报告显示,CKafka已通过单项故障注入测试(服务器宕机、服务发现故障、服务暂停、网络故障、CPU负载高、内存负载高)和综
与集中式架构相比,分布式架构的系统复杂性呈指数级增长,混沌工程在信创转型、分布式架构转型、小机下移等过程中有效保障了生产的稳定性。本文分享了 TiDB 分布式数据库在银行核心业务系统落地中进行混沌测试的场景设计和实践。
近年来,随着系统架构逐渐向微服务架构演化,开发效率以及系统扩展性大幅提高。但同时,系统的复杂性也随之提高,传统的测试方法已经不能全面理解和覆盖系统所有可能的行为,测试的有效性被大打折扣。我们通过各种测试、SRE、DevOps、金丝雀发布、蓝绿部署、预案、故障演练等方法,希望能够防患于未然。但服务规模不断增长,服务之间的依赖性所带来的不确定性也呈指数级增长。在这样的服务调用网中,任何一环出现的正常或异常的变化,都有可能对其他服务造成类似蝴蝶效应一般的影响。
阅文集团是一家以数字阅读为基础,IP培育与开发为核心的综合性文化产业集团。集团汇聚了强大的创作者阵营、丰富的作品储备,覆盖200多种内容品类,触达数亿用户,已成功输出《斗罗大陆》《斗破苍穹》《鬼吹灯》《盗墓笔记》《琅琊榜》《庆余年》等网文IP改编的动漫、影视、游戏等多业态产品。
来源 | https://github.com/wizardbyron/principlesofchaos_zh-cn/
体现在开发者的世界大抵就是:如果你不提早发现和解决问题,最后问题就会在周末 / 半夜来解决你。
4月26日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”首届云系统稳定性大会在京召开。会上,中国信通院公布了“稳保计划”云系统稳定性领域的最新评估结果、混沌工程先锋实践者优秀案例评选结果,展示了稳定性保障计划的工作成果,公开了首批“稳定性守护者”成员,并全方位解读了云稳定性保障标准体系。 腾讯云混沌工程对于云计算应用案例成功入选“2021混沌工程先锋实践者” 腾讯云混沌演练平台(CFG)提供便捷、灵活、安全的混沌工程故障演习服务,除自动化故障注入外,还提供了观测指标,安全护栏等核心功能
本文已存放在 https://github.com/wizardbyron/principlesofchaos_zh-cn 上,欢迎来 PR
DNS攻击(投毒等)是一种比较常见的网络攻击手段。众所周知,当DNS被恶意篡改或者重定向之后,会导致互联网系统的大规模不可用或者甚至数据泄露。但是,长期以来,DNS 在互联网世界中的重要性却被人们所忽略。恶意的 DNS 污染、劫持,缺少高可用、可扩展等问题使得 DNS 成为攻击的热门目标。但当DNS遭受攻击时,阁下当如何应对?本文将会介绍如何通过腾讯云混沌演练平台进行DNS不可用/DNS篡改的模拟故障攻击,通过混沌实验帮助构建高韧性的系统。
在繁杂的业务和网络环境下,在公司百万级服务器面前,要做到入侵发生时的及时检测,那么反入侵系统的有效性,即系统质量,是至关重要的。
本文从业务角度介绍微信支付实践混沌工程落地的思考,通过多分区的架构来控制最小爆炸半径,在高价值的基础组件和微信支付核心业务场景上探索,并基于高可用原则、历史故障分析推导故障原子的开发,是一篇全面的混沌工程建设实践。
在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。
公司新成立了一个稳定性团队,20年的重要目标之一就是开展混沌工程。为了后续更好的开展工作,记录关于“混沌工程”相关的知识以及工程实践。
这是一篇2020年2月7日发布在公众号上的文章,最近在重学混沌工程和SRE相关的知识,将之前记录的学习笔记及这两年新的一些思考和理解进行了重新整理,计划更新一个系列。
混沌工程师一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御事件能力的信息。
混沌工程是在分布式系统上进行实验的学科, 目的是建立对系统抵御生产环境中失控条件的能力以及信心。由Netflix在2010年底提出,2012开源Chaos Monkey(混乱猴子),中间经过了一系列的演化。具体路线为:
从2005年Peter Rodgers博士提出微web服务,到2014年ThoughtWorks首席科学家Martin Fowler与James Lewis共同提出微服务概念至今已多年,这期间也是互联网及互联网+发展的高速期,消费市场变化莫测,消费者也变得越来越挑剔,很多公司和产品由于无法跟上市场的快速变化而纷纷倒下。越来越多的互联网巨头甚至传统行业都开始对自己的遗留系统进行微服务改造,通过把系统拆分为更加灵活、有业务边界上下文、松散耦合、可独立部署的服务来应对快速变化的消费市场。
随着摩尔定律的终结,单机计算性能已达到了极限,然而,我们的软件系统不论是规模还是复杂度一直在增长,所以软件系统都不约而同的朝着分布式化方向发展。近年来,随着云服务、容器的出现,某些分布式系统也更容易微服务化。
混沌工程是在系统上进行实验的学科,目的是建立对系统承受生产中动荡条件的能力的信心。
2008 年 Netflix 在整体微服务化和数据中心迁移至 AWS 云的背景下,开始了在生产环境进行系统弹性的测试。最早为大家熟知的是 Chaos Monkey,一个在生产环境中随机选择并关闭服务节点的工具。它的名字来源于其工作的方式:如同一只野生、武装的猴子,释放到在数据中心,来造成严重的破坏。
在2023年11月12日,刚经过双11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。从阿里云健康看板公布的数据可以看出,阿里云的几乎所有的云产品等服务都受到了影响,影响了全球范围内多个地域。阿里云这次故障,放在整个云厂商界都是炸裂般的存在。阿里云历时3个多小时,服务才陆续恢复。
前面几篇文章,从两个开源程序chaos-mesh、chaosblade入手,分析混沌工程的原理;然后讲混沌工程实施的完整过程及混沌原则梳理,本文主要是记录之前的知识,用一个例子说明混沌工程是怎么设计的。
在分布式系统架构下,服务间的依赖日益复杂,很难评估单个服务故障对整个系统的影响,并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持续保障系统的稳定性和高可用性受到很大的挑战。我们知道发生故障的那一刻不是由你来选择的,而是那一刻来选择你,你能做的就是为之做好准备。所以构建稳定性系统很重要的一环是混沌工程,在可控范围或环境下,通过故障注入,来持续提升系统的稳定性和高可用能力。
Tech 导读 本文从整体介绍了混沌演练的实践流程,读者可以通过本文了解到混沌实践的典型演练场景、重要考核指标以及风险控制方案等。
在上一期《业务永续》中我们给大家介绍的是容灾管理系统,本期给大家带来的是腾讯云首个私有化输出的 B 端混沌工程产品——故障演练平台,在腾讯专有云的运维平台中,它又是如何工作的呢?
测试您可以预测的事故是必不可少的。但是随着数字化转型和云原生架构带来的复杂性,团队需要一种方法来确保应用程序能够承受生产的“混乱”。混沌工程满足了这一需求,因此组织可以提供在任何条件下都可以正常运行的强大、有弹性的云原生应用程序。
真英雄最终都不会在半夜里爬起来抢修生产事故,因为他们会聪明地使用分布式系统稳定性设计,以及混沌工程,避免将自己陷入如此凄惨的境地。
12月28日,北京金融科技产业联盟正式公布了2023年度优秀课题评选结果,腾讯云参与研究的4个课题入选年度“十佳课题”、12个课题入选年度“优秀课题”,研究内容涵盖应用创新、分布式数据库、金融数据、金融信息基础设施、开源技术、量子技术、5G等领域,对金融行业全面应用国产技术栈具有重要的指导意义,对金融机构深化数字化转型升级具有重要的参考价值。
如今是数据驱动时代,数据库作为企业的核心资产之一,其安全性和稳定性显得尤为重要。然而,面对复杂多变的业务场景和不断演变的技术挑战,如何把握现有数据库架构可承受故障的故障级别、发生故障后的高可用性方案是否有效,成为了许多数据库用户关注的焦点,也是腾讯云MySQL在服务众多重保用户时思考的问题。
非自上而下的客户界面联合项目,极易受客户的工作安排影响,导致实际时间窗口很小。就需要我们的混沌方案,在充分覆盖目标系统的基础上,可以把最重要的事项优先执行以取得客户信任。
混沌工程是一种提高技术架构弹性能力的复杂技术手段,旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。
ChaosMeta 是蚂蚁集团开源的一款云原生混沌工程平台。它凝聚了蚂蚁集团在公司级大规模红蓝攻防演练实践中多年积累的方法论、技术以及产品。由“风险目录”(内部对各领域技术组件的通用风险场景手册)作为理论指导,结合技术实践,为蚂蚁集团多年的各种大促活动保驾护航。
可能是大规模企业级的应用,大都是Java编写、并且Java提供了方便的API,可以在不修改Java代码的情况下,直接运行时编辑Java字节码,实现运行时改变程序的默认行为,达到在具体的Java函数上实现延迟、错误等效果。
雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2020年11月11日晚,又一年天猫双11狂欢接近尾声。 新交易纪录、新流量峰值,一切都是十全十美的样子。 此时,阿里巴巴CTO程立(鲁肃)才将一段实录视频公之于众—— 11月5日凌晨,阿里技术上下完成双11大考期间最后一次全链路压测后休息和交接间隙……服务器连续遭遇了两次攻击。 第一次,凌晨两点左右,监控大屏显示四个地区数据中心数值迅速下跌,技术保障团队启动紧急响应处理,确定遭遇了断网攻击。 紧接着第二次,2:10,更凶猛直接的攻击来了。华
随着数字经济转型逐步深化,众多企业正迈入全面上云阶段。然而,云计算架构所带来的复杂性也让稳定性面临极大挑战。伴随着云计算规模的快速增长,云服务作为社会基础设施的重要性也日益提升。腾讯云深知质量乃生命线,稳定性至关重要且不容忽视。
混沌工程在分布式系统上进行实验的学科,目的是建立对该系统能够能够承受生产环境的动荡条件的信心。
作者:yorkoliu,腾讯 IEG 业务运维专家 一、前言 上一篇文章《云原生背景下的运维价值思考与实践(上)》 重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,DevOps 与 SRE 到底是什么样的关系?在 Google
Chaos Engineering(混沌工程),相信搞互联网的或多或少都听过,Netflix 发明了 Chaos Monkey,经过社区的发展回馈,慢慢形成了 Chaos Engineering。
ChaosBlade 项目覆盖基础资源、应用服务、容器服务等混沌实验场景。在实验工具设计之初就考虑了场景模型统一,便于场景扩展和沉淀,也为平台托管实验工具实现统一场景调用提供模型依据。ChaosBlade 项目中所有的实验场景均遵循此实验模型设计,下面通过实验模型的推导、介绍、意义和具体的应用来详细介绍此模型。
近年来,因数据衍生、关联、发展起来的技术层出不穷,我们不断探索数据从资源转化为资产的方法,又面临在数据共享和互通中引发的安全隐患;我们迫切希望进行企业核心数据库的开源化、国产化替换,又碍于“恐龙级”老旧系统的历史遗留问题而难以开展;同时,我们还需要持续跟进如AIOps、DataOps、混沌工程等新兴技术理念,制定适合自身企业的落地方案…… 为了和大家一起攻克这些疑难,第七届DAMS中国数据智能管理峰会将于2021年8月27日在上海举办,携手中国信通院云大所、阿里、腾讯、蚂蚁集团、美团、携程、快手、工商银行
2014年,Netflix团队创建了一种新的角色,叫作混沌工程师(Chaos Enigneer),并开始向工程社区推广。项目目标、业务场景、人员结构、实施方式的不同导致了对于稳定状态行为的定义不太标准。
TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入的理解和实践经验。
领取专属 10元无门槛券
手把手带您无忧上云