首页
学习
活动
专区
工具
TVP
发布

腾讯云混沌工程团队

专栏作者
23
文章
9222
阅读量
23
订阅数
[云顾问-混沌] 时间变了,A U OK?
时间在分布式系统中是一个重要且有趣的问题。时间是我们一直想要准确测量的量。为了知道特定事件在一天中的什么时间发生在特定计算机上,有必要将其时钟与权威的外部时间源同步。时间通常是系统事件完整性、系统日志、系统审计、系统故障排查以及系统取证的基本标准。在现代的复杂系统中很多地方都会和时间发生关系,比如基于时间的访问控制、加密认证等。很显然,在复杂的分布式系统中,准确的时间十分重要。既然时间这么重要,那时间不准确或者出现跳变的情况,会对系统产生影响吗?答案是会的。
冷淡然
2024-03-20
830
【云顾问-混沌】[行业经验] 跨 AZ 容灾混沌演练
随着云计算技术的快速发展,越来越多的企业和组织将其业务迁移到云平台,以实现更高效、灵活和可扩展的资源管理。然而,由于云环境的复杂性高,也为业务稳定性带来了一定的挑战,那如何确保业务的高可用性和数据的安全性呢?进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。
冷淡然
2024-02-21
1370
【云顾问-混沌】云 MySQL 主备切换
MySQL 主备切换(Master-Slave Switching)是指在 MySQL 主从复制架构中,将从库(Slave)提升为主库(Master),原主库降为从库的过程。这种切换通常用于故障恢复、负载均衡、系统升级等场景。腾讯云混沌演练平台可对云 MySQL 进行主备切换故障注入,通过混沌实验帮助构建高韧性的系统。
冷淡然
2024-02-02
880
【云顾问-混沌】云 MySQL 主节点故障
MySQL 主节点故障是指在 MySQL 主从复制架构中,主数据库服务器(主节点)出现问题,无法正常提供数据库服务的情况。主从复制架构通常用于提高数据库的可用性和性能。在这种架构中,主节点负责处理写操作(如插入、更新和删除),而从节点负责处理读操作(如查询)。若主节点出现故障离线,将会出现存量连接闪断的场景。
冷淡然
2024-02-02
1420
【云顾问-混沌演练】精细演练,稳定云端——腾讯云助阵金蝶云,守护小微业务稳定高可用
为了给客户提供更优质、更可靠的服务,金蝶业务团队从2022年开始,就已经在腾讯云售后专家的协助下,陆续对业务系统完成双活改造。改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。本次演练主要针对金蝶小微业务线(精斗云&KIS云),涉及10大业务故障场景,是财务、新零售、电商等领域行业提高系统可用性的一次最佳实践。
Isainsley
2024-02-02
940
关注专栏作者,随时接收最新技术干货
怡然自得
腾讯运营开发工程师
Isainsley
腾讯技术产品
冷淡然
腾讯公司后台开发工程师
【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践
乐元素是国内休闲益智游戏领域领航企业。为了给用户提供更稳定可靠的使用体验,在2023年Q2开始,乐元素运维、业务团队联合腾讯云售后专家和技术专家,基于针对乐元素旗下休闲游戏产品《开心消消乐》展开同城双活改造项目,目的是了解并改善业务容灾部署状况,进一步强化云上业务系统的容灾能力。
ainsley
2024-01-29
2310
【云顾问-混沌】Pod/Node 内存高负载故障注入
在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行内存负载故障注入,以达到指定的内存占用百分比。腾讯云混沌演练平台故障动作:标准集群 Pod/普通节点-内存利用率高。
冷淡然
2024-01-29
1040
【云顾问-混沌】Pod/Node CPU 故障注入
在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。
冷淡然
2024-01-18
1320
【云顾问-混沌】CPU 高负载故障演练
服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。然而,在日常的服务运维过程中,CPU 高负载却是非常常见的一种故障场景。引起 CPU 高负载的原因也多种多样,以下列举一些常见的原因:
冷淡然
2024-01-09
1010
【云顾问-混沌】Redis故障演练-主从切换
随着企业对数据处理和存储需求的不断增长,Redis作为一款高性能的内存数据结构存储系统,已成为业界的首选。然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。
冷淡然
2023-12-19
1720
【云顾问-混沌】服务宕机灾难预防手段:混沌工程
Salesforce 是领先的云软件应用程序,全球约15万组织数百万员工使用。提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。
冷淡然
2023-12-19
1380
【云顾问-混沌】Kafka Broker开小差了~
现如今,Kafka 作为一个高性能、高可靠性、分布式的消息队列系统,广泛地被应用于大规模互联网服务中,如 Tencent、Facebook、LinkedIn、Netflix、Airbnb 等知名公司。然而,在大规模的分布式系统中,服务的不可预测性、复杂性和耦合性经常会导致一些不可预测的故障事件。当Kafka Broker节点宕机时,可能会出现以下故障:
冷淡然
2023-12-11
1700
【云顾问-混沌】腾讯云的云上容灾实践
在2023年11月12日,刚经过双11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。从阿里云健康看板公布的数据可以看出,阿里云的几乎所有的云产品等服务都受到了影响,影响了全球范围内多个地域。阿里云这次故障,放在整个云厂商界都是炸裂般的存在。阿里云历时3个多小时,服务才陆续恢复。
冷淡然
2023-11-16
4231
【云顾问-混沌】当DNS遭受攻击时,阁下当如何应对?
DNS攻击(投毒等)是一种比较常见的网络攻击手段。众所周知,当DNS被恶意篡改或者重定向之后,会导致互联网系统的大规模不可用或者甚至数据泄露。但是,长期以来,DNS 在互联网世界中的重要性却被人们所忽略。恶意的 DNS 污染、劫持,缺少高可用、可扩展等问题使得 DNS 成为攻击的热门目标。但当DNS遭受攻击时,阁下当如何应对?本文将会介绍如何通过腾讯云混沌演练平台进行DNS不可用/DNS篡改的模拟故障攻击,通过混沌实验帮助构建高韧性的系统。
冷淡然
2023-11-09
2290
【云顾问-混沌】混沌工程GameDay
GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。GameDay活动旨在对系统如何应对现实世界中的混乱状况进行演习。通常来讲,实施混沌GameDay的团队需要探索下面几个问题:
冷淡然
2023-11-01
3840
混沌工程稳态假说
混沌工程旨在帮助建立对系统在面对各种复杂的故障状况下的信心,帮助发现系统薄弱点。一种操作方法是直接引入各种混乱状况,比如破坏网络、引入延迟等,然后看看哪里会崩溃。然而混沌工程是一种科学的稳定性建设方案,目的是发现系统薄弱点,而非简单的测试工程。
冷淡然
2023-11-01
2340
【云顾问-混沌】混沌工程理念:起源
在互联网及互联网+发展的高速期,简单的单体系统已经无法满足互联网用户的需求,逐渐从单体系统向分布式微服务架构系统演进。演进历程可以概括为以下几个阶段:
冷淡然
2023-10-23
2230
【云顾问-混沌】容易忽视的分布式时间
时间在分布式系统中是一个重要且有趣的问题。时间是我们一直想要准确测量的量。为了知道特定事件在一天中的什么时间发生在特定计算机上,有必要将其时钟与权威的外部时间源同步。时间通常是系统事件完整性、系统日志、系统审计、系统故障排查以及系统取证的基本标准。在现代的复杂系统中很多地方都会和时间发生关系,比如基于时间的访问控制、加密认证等。很显然,在复杂的分布式系统中,准确的时间十分重要。既然时间这么重要,那时间不准确或者出现跳变的情况,会对系统产生影响吗?答案是会的。
冷淡然
2023-06-27
2800
【云顾问-混沌】Linux的网络管理神器-tc qdisc
在介绍tc qdisc之前,先解释下tc是什么, tc(traffic control)是Linux内核中的一个网络流量控制工具,它可以用来控制网络流量的带宽、延迟、丢包等参数,从而实现网络流量的优化和管理。详细介绍可以参考Linux TC工具的官方文档和man手册。而qdisc (queueing disciplines), 是tc工具中的一部分,叫做队列规则,是一种可以定义Linux网络流量队列规则的一种机制,可以进行流量排队、调度以及限速等操作,达到对网络流量的精细控制和管理。如下是几个qdisc的例子:
冷淡然
2023-06-27
2K0
【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!
中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国云服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。作为首届活动,标志性、引领性意义重大。
Isainsley
2023-02-07
7820
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档