家住北京西二旗的小张是一家互联网金融公司的运维工程师,金融行业的数据可是很值钱的,任何的损坏和丢失都不能容忍。
最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。生产全链路压测终于告一段落,抽出时间将个人收集的稳定性相关资料整理review了一遍,顺带从不同的维度,谈谈稳定性相关的“务虚”认知和思考。。。
在异地多活项目整体推过程中的一些注意事项和设计点归纳和整理,抛砖引玉,其中一些点还有待深入探讨和优化。
作者介绍 万守兵:腾讯云行业架构师,对云上双活架构、迁移方案有比较深的了解,现主要负责腾讯云泛互行业TOP级客户的解决方案架构工作。 高可用挑战 1. 高可用挑战:时间要求 2. 高可用挑战:各种不稳定的原因 常见事故及问题归类如下: 互联网通用架构和分层 典型互联网架构分层设计如下: 系统正交分解如下: 分类 服务治理 目标 技术 架构 监控层外层客户端SLA、攻防/扫描/审计 CDN合理/稳定
一、高可用的挑战 1、高可用挑战-要求 image.png 2、高可用挑战-各种不稳定的来源 常见事故及问题归类如下: image.png 二、互联网通用架构和分层 典型互联网架构分层设计如下: image.png 系统正交分解如下: 服务治理目标 技术架构 监控层 外层 客户端SLA 攻防/扫描/审计 CDN合理/稳定 DNS合理/稳定 流量峰值 CDN DNSPOD/Ip直连 高防 客户端监控 CDN监控 DNSPOD监控 安全监控 接入层 异地多活 服务
相信所有企业和个人开发者在选用云存储产品时都把数据安全作为重要考量标准。 本文介绍了用户如何使用腾讯云对象存储COS的事前防护、事中监控、事后追溯三个手段来保证自己的数据安全。
灾备: 是指容灾和备份。容灾是为了在遭遇灾害时能保证信息系统能正常运行,帮助企业实现业务7*24小时连续性的目标,备份是为了应对灾难来临时造成的数据丢失问题。容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。
指通过远程访问和控制技术,实现对NAS设备的远程操作和管理。具体而言,用户可以通过电脑、手机等设备,在异地实现对NAS设备的控制,如获取NAS设备上的文件、图片和音频等材料,以及使用NAS设备的键盘、鼠标进行输入操作等。
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。当企业内部经过评估选定容灾建设整体方向,即同城双活;需要对方案进行验证,包括组件容灾能力建设,数据同步以及切换验证等。通常对组件容灾能力建设和验证会花费大量时间,如果测试不符合预期,对之前调研、部署以及测试人力和时间成本带来较大耗费。因此借助云平台能力“一站式”提升系统容灾能力,助力企业降本增效。
导语 | 故障是开发者高频关注的问题。在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。本文作者冯煦亮从架构、工具链、可观测三个维度,介绍了QQ音乐多年来积累的高可用架构实践。期望对你有帮助。 QQ音乐高可用架构体系全景 故障无处不在,而且无法避免。在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。QQ音乐高可用架构体系包含三个子系统:架构、工具链和可观测性。 架构:架构包
在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。QQ音乐高可用架构体系包含三个子系统:架构、工具链和可观测性。
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
总第249篇 2018年 第41篇 引言 在任何一家互联网公司,不管其主营业务是什么,都会有一套自己的账号体系。账号既是公司所有业务发展留下的最宝贵资产,它可以用来衡量业务指标,例如日活、月活、留存等,同时也给不同业务线提供了大量潜在用户,业务可以基于账号来做用户画像,制定各自的发展路径。因此,账号服务的重要性不言而喻,同时美团业务飞速发展,对账号业务的可用性要求也越来越高。本文将分享一些我们在高可用探索中的实践。 衡量一个系统的可用性有两个指标: 1. MTBF (Mean Time Between
背景 度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附近的酒店)不同,旅游场景中的用户兴趣点(比如周末去哪儿好玩)很难确定,而且会随着季节、天气、用户属性等变化而变化。这些特点导致传统的信息检索并不能很好的满足用户需求,我们迫切需要建设旅游推荐系统(本文中度假=旅游)。 旅游推荐系统主要面临以下几点挑战: 本异地差异大。在本地生活场景中用户需求绝大部分集中在本地,而在旅游场景中超过30%的订单来自于异地
公有云,私有云(OpenStack/cloudstack + KVM/XEN,oVirt), 混合云 服务监控 配置管理
紧急的事处理了就过去了,然而并不一定有什么长远的价值,或许在一瞬间体验了各种不同的感觉;而重要的事则不一样,事处于长远的考虑。。。
OpenStack已经成为一种趋势,但发行版OpenStack尚不完美,企业要建成私有云必须预先充分了解发行版OpenStack的缺点,并寻求专业OpenStack提供商的帮助与合作,才能扬长避短,真正发挥OpenStack的优势,建成最大化企业竞争优势的私有云。
作者:赵珣 腾讯云监控工程师 简介 云数据库 MySQL(TencentDB for MySQL)是腾讯云基于开源数据库 MySQL 专业打造的一种高性能分布式数据存储服务,提供了备份恢复、监控、容灾、快速扩容、数据传输等全套解决方案,简化数据库运维工作,让用户专注于业务发展。 云数据库 MySQL 的优势: 快速便捷的数据库服务交付能力,在几分钟内部署可扩展的 MySQL,并可按需弹性升降配置; 真正 100% 的 MySQL 兼容能力,主流 MySQL 分支完全兼容; 提供热备、冷备、binlog
Shell 历史记录异地留痕审计与监控 摘要 我的系列文档 编程语言 Netkiller Architect 手札Netkiller Developer 手札Netkiller PHP 手札Netkiller Python 手札Netkiller Testing 手札Netkiller Cryptography 手札Netkiller Perl 手札Netkiller Docbook 手札Netkiller Project 手札Netkiller Java 手札Netkiller DevOps 手札 操作
2022年2月18日,乌鲁木齐银行发布《正版Oracle软件采购项目》公开询价公告,控制价 283 万元。
企鹅电竞登录鉴权系统是企鹅电竞电竞所有写请求的前置关键路径,需要具备高可靠性。其核心存储依靠 CMEM,为保证服务的稳定运行,搭建一套同构 CMEM 存储,热备 Login 数据,在 CMEM 发生存储或网络故障时保证登录鉴权服务正常运行。
在使用成熟的框架编写Web应用程序时,有时候开发会处于永无止境的修改=>测试=>修改=>测试的状态。尽管如此,开发人员更专注于更改的功能和可视输出,而在安全性方面花费的时间却少得多。但是,当他们确实专注于安全性时,通常会想到的就是典型的事情,例如防止SQL注入或访问控制错误,但是对安全性的关注应该远远超过这些。
Shell 历史记录异地留痕审计与监控 摘要 ---- 目录 1. 什么是Shell历史记录异地留痕与监控 2. 什么要将Shell历史记录异地留痕并监控 3. 何时做历史记录异地留痕 4. 在哪里做历史记录异地留痕 5. 角色与权限 6. 怎么实现历史记录异地留痕 6.1. 节点配置 6.2. 推送端 6.3. 收集端 7. 延伸阅读 1. 什么是Shell历史记录异地留痕与监控 首先谈谈什么是“历史记录异地留痕”,历史记录就是~/.bash_history文件,不同Shell名字可能不同,它会记录每次用
数据库选型一直是困扰客户的难题,不仅要考虑底层的数据库技术,还需要结合企业业务特点、企业未来规划做决策。如何快速掌握数据库选型秘诀呢?答案无疑是看市场怎么做,看市场的同行是如何选择的。 近期,腾讯云数据库TDSQL助力福建海峡银行新一代核心业务系统正式上线(点击查看详情),为城商行提供核心改造解决方案。新核心关键业务系统采用“微服务+分布式”架构,改造历时14个月,依托腾讯云企业级分布式数据库TDSQL良好的兼容性、成熟的迁移能力和技术服务支持,海峡银行快速完成了核心系统的国产数据库替换,并基于腾讯云数据库
首先,P9必须具备精湛的编程能力和深厚的计算机基础。无论是基于JAVA、Python还是C++等编程语言,都需要在底层知识方面有非常扎实的掌握,同时还需要保持对新技术和新框架不断学习和研究。这样,在解决复杂问题、优化系统性能等方面才能游刃有余。
JDHBase在京东集团作为线上kv存储,承担了大量在线业务,11.11、6.18 均经历了每天万亿级读写访问请求,目前规模达到7000+节点,存储容量达到了90PB。场景涉及商品订单、评价、用户画像、个性推荐、金融风控、物流、监控等700+业务。
根据微博目前站内词条消费情况,计算 top 50 消费热度词条,每分钟更新一次,并且按照列表展现给用户。
引言: 随着企业在全球范围内的扩张和云计算的普及,组织面临着越来越复杂的网络需求。传统的广域网(WAN)架构往往无法满足这种需求,而SD-WAN技术的出现为解决这一问题提供了新的解决方案。神卓互联的SD-WAN异地组网方案为企业提供了一种高性能、可靠和安全的网络连接,本文将详细介绍SD-WAN异地组网的完整指南,帮助企业提升网络性能和安全性。
会控为整个会议最为核心的业务,由于海量请求的高性能要求,后台存储全部为 Redis。在业务飞速发展期,各模块边界不够清晰,大家对存储的使用处于失控状态,随着 PCU 的不断上涨,逐步暴露出存储和架构的诸多问题,同时也对系统容灾能力有了更高的要求。会控业务历史包袱重,存储改造伤筋动骨,要做到平滑迁移需要考虑的细节较多。有幸作为 owner 负责(2022.12-2023.08)了会控存储的优化改造,本文主要从业务、个人和企业数据分库、异地容灾和多活(下一步目标)层面总结了会控存储治理的成功实践,目的是形成一套方法论,沉淀下来一套可以复用的工具,以供大家后续工作中参考。
为帮助开发者更好的了解和运用数据库,腾讯云数据库团队特出品《深入浅出理解云数据库》系列文章,从数据库的基本概念到云数据库特性及应用,从数据库基础原理知识到腾讯云经典实战案例解读,带你走进云数据库的世界。关注“腾讯云数据库”微信公众号,开启2020年的DB修炼之旅。 第一回请点击:数据库的基本概念和云数据库特性 第二回请点击:云数据库的市场应用及基础原理知识 1 PartⅠ 腾讯云数据库产品总览 接下来的章节中我们以腾讯云数据库为例,来详细解读云数据库的功能和特性等。 首先来让我们用一张表来看清楚腾讯
当前我国企业信息化需求巨大,然而由于成本问题,企业市场竞争出现了两极分化现象:大型企业拥有资金享受了先进的信息化服务,竞争力越强;而中小企业因成本高昂而无法实现信息化,在竞争中也愈发处于劣势地位。
互联网科技不断发展的同时,云端服务也变得越来越重要,云服务可以将企业所需的数据和软硬件都存放在网络上,在任何时间和地点使用不同的设备互连,就能实现数据的存取和运算,而我们的生活方方面面都在不断产生着数据,无论是出行记录、消费记录、浏览记录还是发送的消息。
【案例】蜂巢链:基于区块链的资产证劵化
随着物联网的快速发展,通过手机微信小程序或PC 终端对设备系统的控制单元PLC 的运行进行远程预警监控的技术已经非常成熟。基于手机微信小程序或PC 终端的PLC 远程监控控制系统能给设备的生产厂家和使用方都带来极高的经济利益。设备使用方能随时观察设备的运行状态,及时进行预警,提高了设备运行的可靠性,避免设备故障带来不必要的损失。生产方能也能通过远程实时查看设备的运行状态,来及时排除故障,提高售后维修的时效性,提高客户对产品
大家好,我是云英负责存储的研发工程师,杨冠军,很高兴今天能在这里跟大家一起讨论分享下Ceph和Ceph在云英的实践。 首先我先介绍下,Ceph是什么,我们为什么选择Ceph? Ceph是最近开源系统中很火的一个项目,基于Sage Weil的一片博士论文发展而来的一个分布式文件系统,可提供PB级,动态可扩展,数据安全可靠的存储服务。Ceph提供分布式存储服务包括:块存储RBD,对象存储RADOSGW和CephFS三种,基本覆盖了绝大部分企业对存储的需求,所以越来越多企业加入到使用Ceph的行列。在国内也有越来
网上有很多文章类似于我今天要分享的课程,有架构师写的,有运维写的,还有开发些的,偏重点都不同,今天我以咱们运维角度全面讲解。
在软件开发领域,「异地多活」是分布式系统架构设计的一座高峰,很多人经常听过它,但很少人理解其中的原理。
当谈到架构的高可用时,无论是高可用计算架构,还是高可用存储架构,其本质的设计目的都是为了解决部分服务器故障的场景下,如何保证系统能够继续提供服务。但在一些极端场景下,有可能所有服务器都出现故障。例如,典型的有机房断电、机房火灾、地震、水灾……这些极端情况会导致某个系统所有服务器都故障,或者业务整体瘫痪,而且即使有其他地区的备份,把备份业务系统全部恢复到能够正常提供业务,花费的时间也比较长,可能是半小时,也可能是一天。因为备份系统平时不对外提供服务,可能会存在很多隐藏的问题没有发现。如果业务期望达到即使在此类灾难性故障的情况下,业务也不受影响,或者在几分钟内就能够很快恢复,那么就需要设计异地多活架构。
近年来,云计算在全球范围内飞速发展,公有云弹性敏捷、低成本,私有云安全可控、高性能,无数的企业选择“上云”来加速自身IT化进程,以实现更好的发展。为了满足业务多样化的需求,大量企业开始同时使用公有云和私有云,但一些核心业务仍然采用传统的物理机运行模式来保证稳定运行。然而,这种“鱼与熊掌兼得”的做法让不少企业开始面临更大的难题——混合IT环境下,如何兼顾不同来源的主机并实现高效的业务部署和交付? 根据企业对公有云、私有云、IDC托管设备之间的安全性、管理自动化、资源灵活调度等需求,互联港湾隆重推出新一代混合云
随着社会的不断发展,安防视频技术也在日新月异地进步。从最初的模拟视频监控到数字视频监控,再到现在的智能视频监控,安防视频技术经历了漫长的发展历程。
一开始各个模块都把需要调用的服务地址放到配置文件里,每次修改或者添加了服务需要修改各自的配置文件。而且NLU和BOT的服务是动态变化的。所以修改配置文件特别不灵活。为了解决这个问题,我们基于ETCD做了服务发现。在ETCD中约定一个目录,当服务有新增或者删除的时候,webServer会调用ETCD的接口,修改目录中的配置 ;“中控”watch某个目录,当内容有变的时候,读取服务配置存储到redis中。当请求到达“中控”的时候,“中控”根据请求中的场景ID,获取服务地址、并调用相关的NLU、FAQ服务。
随着苏宁线下线上业务以及全产业、全业态规模式快速增长,特别是每年苏宁 818 大促、双 11 等大促节点,销售订单基本都呈现倍数级增长态势,需要进行大量资源扩容,单个数据中心的容量有限,已经无法支撑苏宁业务的快速发展。同时,单数据中心在高可用上存在不足,一旦数据中心发生故障,会导致业务受损,用户访问中断,带来严重的影响。针对以上问题,苏宁规划建设多数据中心解决方案迫在眉睫。
摩拜单车 2017 年开始将 TiDB 尝试应用到实际业务当中,根据业务的不断发展,TiDB 版本快速迭代,我们将 TiDB 在摩拜单车的使用场景逐渐分为了三个等级:
存储业务里面有很多访问突发的业务,其中微信就是一个典型的业务。微信承担了亿万用户的图片、视频和文件的收发,遇到特殊热点事件或者重大节假日,访问次数会突发10倍以上的增长。微信是一个海量的业务,平时机器的负载有限,实际运营中不可能预留10倍的Buffer,那么遇到传统节日春节的时候,我们是怎么平稳度过的呢?
为了保证系统能够对机房级别的故障进行容错,不会使系统不可用,这就需要在机房级别对系统进行冗余处理。而这就需要在架构上进行良好的设计。来面对多机房场景下的技术挑战。事实上,异地多活最大的挑战在于机房之间的物理距离更远,数据传输的延迟已经不能忽略。在网络普遍延迟的情况下,如何根据业务特性设计高可用的性能达标的分布式系统,将是最大的挑战。
但是,由于缺乏有效的安全机制和防范措施,如对人员进出数据中心的监控,数据中心很容易受到攻击或威胁,关键数据也可能被非法访问和操纵,从而影响数据中心的运行。数据中心的安全。
数据是一个企业的心脏命脉,数据的安全性直接影响着整个业务的发展,没有数据平台,就等于没有招牌,公司业务将无法运转, 所以大家明白数据的重要性,就要意识到数据的安全性。
在软件开发领域,异地多活是分布式系统架构设计的一座高峰,很多人经常听到过他,但很少人理解其中的原理;
本文由公众号“水滴与银弹”号主Kaito原创分享,原题“搞懂异地多活,看这篇就够了”,为使文章更好理解,有修订。
领取专属 10元无门槛券
手把手带您无忧上云