作者简介:梁定安,腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,腾讯课堂运维讲师,EXIN DevOps Master讲师,凤凰项目沙盘教练,复旦大学客座讲师。* 请原
本文主要介绍了如何基于监控告警实现业务闭环,从四个大方面进行了展开:1)基于业务影响的监控告警,2)基于故障收敛的监控告警,3)基于运维流程的监控告警,4)基于质量度量的监控告警。在本文中,作者还介绍了在腾讯云平台上如何利用监控数据实现故障定位和故障恢复,以及如何通过自动化流程实现故障收敛和故障自愈。
腾讯云 CVM 提供了在云中的可扩展的虚拟计算资源,允许您选择多种操作系统来启动 CVM 实例,并加载到您自定义的应用环境。后续随着业务量的变化,您还可以随时调整您的 CVM 规格。
在云计算领域,容器和函数计算技术的迅猛发展正引领着企业架构的新变革。尤其是在2023年,随着技术的成熟和应用场景的拓展,腾讯云发布的《2023腾讯云容器和函数计算技术实践精选集》为我们提供了一窗口,深入了解这一领域的最新进展和最佳实践。本文旨在深度解读该文档,探讨其中的核心技术价值、实用性案例以及对未来技术趋势的启示。
你,一个美丽可爱的运维,在一个月黑风高的夜(傍)晚,接到了老板建立一个运维平台的需求...... 接到任务的那一刻,你的内心是崩溃的,老板“很简单”的运维平台搭建需求,不仅仅要求业务,应用层,中间件,系统层的监控全覆盖,还要拥有告警和看板功能。与此同时,你也知道埋藏在这个需求下的隐性要求:高可用,高稳定性。想到上次系统宕机时老板的脸色,你瑟瑟发抖。 焦头烂额的你,隐约知道监控业内最有名气的开源运维工具 Prometheus 可以实现这个需求,于是紧急开始了网上冲浪,并且踌躇满志地打下了第一行代码。 两
背景 随着 2015 年由谷歌牵头成立 CNCF (云原生计算基金会),云原生的概念逐步深入人心。云原生应用的三大特征:容器化封装,动态管理,面向微服务。 以一个典型的电商服务关键路径(登录 -> 浏览详情页 -> 下单)为例: 图中所有的服务和组件都运行在腾讯云上。 1. 下单关键路径上 3 个服务均为容器化服务,且通过微服务架构实现。 2. 服务均运行在 TKE (腾讯云容器服务) 上。 针对图中的云原生服务,CNCF (云原生计算基金会) 推荐的监控治理方案是可观测性建设。其三大支柱为:指标,
| 导语 疫情来势凶猛,腾讯课堂“停课不停学”专项为千万学子保驾护航。面对一个月内课堂流量的暴涨,监控体系如何在有限的时间内快速发现潜在问题并高效定位,进而保证服务稳定?本文对课堂的监控实践做一个总结,并且对未来监控体系提出一些思考。文章如有错误,欢迎指正~
日志服务(Cloud Log Service,下文简称CLS服务)是腾讯云提供的一站式日志数据解决方案,可以快速便捷的接入,享受日志采集、日志存储到日志内容搜索、统计分析等全方位稳定可靠的日志服务。下文讲解业务接入腾讯云日志服务方案。
作者:Justin Ellingwood 翻译:云监控团队 指标、监控、告警系统的重要特质 尽管每个监控程序或服务都各有利弊,但是做的比较好的通常具备一些重要的特性。以下是用户评估监控系统时可参考的一些更重要的特征。 01 独立于大多数其它基础架构 合格的监控系统的最基本要求之一是独立于其他服务之外。虽然有时将服务组合在一起是有用的,但监控系统的核心职责是可以诊断问题,以及监控系统与被监控系统的关系意味着独立访问的重要性。虽然监控系统会不可避免地对它监控的系统产生一些影响,但是应该把问题定位追踪时对性能
随着科技的不断进步,安防智能系统变得越来越重要。当前的安防监控市场系统五花八门,用户该如何选择性比价高、功能又靠谱的平台?一个优秀的安防智能系统应该具备哪些特点?今天我们来针对这个话题讨论和分享一下。
【编者按】已经5岁的OpenStack已经成为极富生命力的框架。其简化云部署、构建应用和服务、可扩展性、可管理性等方面都有不俗表现。CSDN于4月举办的OCC(OpenClud2015)的2015OpenStack技术大会中,我们对包含核心、集成发布、孵化、外围在内多个项目的生态环境进行了分析,并力邀数位技术专家分享了深度实践案例。而在业内耳熟能详的PayPal、沃尔玛、携程、去哪儿网、金山、小米等案例之外,国内金融行业在OpenStack方面的实践也已走在前列。下文为CSDN特别向中国银联股份有限公司/电
简介 云数据库 Redis(TencentDB for Redis)是由腾讯云提供的兼容 Redis 协议的缓存数据库,具备高可用、高可靠、高弹性等特征。云数据库 Redis 服务兼容 Redis 2.8、Redis 4.0、Redis 5.0 版本协议,提供标准和集群两大架构版本。最大支持 4TB 的存储容量,千万级的并发请求,可满足业务在缓存、存储、计算等不同场景中的需求。 云数据库 Redis 的优势: 主从热备:提供主从热备,宕机自动监测,自动容灾。 数据备份:标准和集群架构数据持久化存储,可提供
本文讨论了云监控的概念、优势、工作方式、类型以及云监控工具的使用方法和好处,并提供了实施云监控的步骤和技巧。
作者:赵珣 腾讯云监控工程师 简介 云数据库 MySQL(TencentDB for MySQL)是腾讯云基于开源数据库 MySQL 专业打造的一种高性能分布式数据存储服务,提供了备份恢复、监控、容灾、快速扩容、数据传输等全套解决方案,简化数据库运维工作,让用户专注于业务发展。 云数据库 MySQL 的优势: 快速便捷的数据库服务交付能力,在几分钟内部署可扩展的 MySQL,并可按需弹性升降配置; 真正 100% 的 MySQL 兼容能力,主流 MySQL 分支完全兼容; 提供热备、冷备、binlog
全球数字经济进入高速发展期,数字经济已成为我国经济增长的重要组成部分和推进我国经济发展的新增长极,加快推进各产业数字化转型,成为“十四五”时期的重要阶段性目标。构建以云计算为核心的数字基础设施实现IT架构的现代化改造已经成为社会共识,云原生技术作为下一代云计算的技术内核发挥着重要作用。历经多年发展,我国云原生技术生态已趋于完善、行业用户接纳度急速提升、资本市场热潮涌动,可以预见我国云原生产业即将进入高景气周期。 2022年6月,腾讯云参评由中国信通院组织的首批云原生技术架构成熟度评估,顺利完成测试。 腾讯
顾自然 腾讯云监控产品经理,硕士毕业于墨尔本大学。目前主要负责腾讯云业务层监控相关产品策划工作,对应用监控和运维领域有深刻理解。 前言 随着微服务架构的逐渐流行,在熵增且庞杂的系统中准确的定位一个请求的完整生命周期,逐渐成为了研发同学面对的最大的痛点之一,以研发同学自测过程为例,开发同学往往希望在发起测试的 Http/RPC 请求后,能够通过一个简单的方式获取整个测试请求的上下文信息。这其中通常包括相关的上下游链路、各个服务内部请求的方法堆栈,以及链路上打印的日志等数据,对于指标-链路-日志的一体化监控的需
腾讯云云监控 x Grafana 腾讯云于 4 月 20 日宣布与开源数据可视化平台 Grafana 的 Grafana Labs 合作,为全球云用户提供腾讯云 Grafana 云监控应用程序插件。用户可通过此插件,在简单易用的平台上快速监控与整合指标和数据。 腾讯云平台将整合 Grafana 系统,让用户可通过腾讯云 API Key,自定义仪表板访问与监控数据,并可安全地共享访问权限。同时,客户也可选择在 Grafana 开源工具和企业用 Grafana Enterprise 中,在客户的 Gra
云监控业务主要部署在腾讯云TKE上,共部署了40多个地域,80多个TKE集群,1700多个Node节点,1万多个Pod。由于TKE集群需要业务维护Node节点,出于成本的考虑,云监控逐渐把TKE集群迁移至EKS集群,中间经历了自监控的升级与优化,对于自监控建设有一定的参考意义,通过文章记录下来。
监控已经从简单的最佳实践转变为任何产品发布清单上的必需品。选择满足可观察性需求并确保您为客户提供服务的可靠性的工具至关重要。
作者:朱丹阳,腾讯云监控开发工程师 腾讯云消息队列 CKafka 简介 消息队列 CKafka(Cloud Kafka)是基于开源 Apache Kafka 消息队列引擎,提供高吞吐性能、高可扩展性的消息队列服务。消息队列 CKafka 完美兼容 Apache Kafka 0.9、0.10、1.1、2.4 版本接口,在性能、扩展性、业务安全保障、运维等方面具有超强优势,让您在享受低成本、超强功能的同时,免除繁琐运维工作。 产品特点: 收发解耦:有效解耦生产者、消费者之间的关系。在确保同样的接口约束的前提
云服务器(Cloud Virtual Machine , CVM)提供安全可靠的弹性计算服务,只需要几分钟,可以在云端获取和启动CVM实现你的计算需求,随着业务的需求变化, 你可以实时扩展或者缩减计算资源,CVM 支持按实际使用的资源计费,可以节约计算成本,使用CVM 可以极大降低软硬件的采购成本,简化IT运维工作。
腾讯公司成立16 年,第一个产品QQ 其实就是一朵云。从PC 时代第一版的QQ 到现在,腾讯云始终积极地探寻,从解决如何稳定服务、让用户的QQ 不掉线;到解决如何满足用户越来越丰富的需求——更多的社交、更好玩的娱乐、更丰富的在线生活;再到如何开放、如何实现一个中国最大互联网生态平台的价值,腾讯云一步未曾松懈,困难始终巨大,阻碍从未变少,但腾讯精神,技术、实力、还有我们对用户永不怠慢的热情,让腾讯云走到今天。
富途控股有限公司(“富途”)是一家领先的数字化金融科技公司,专注于为用户提供覆盖多个市场的全数字化金融服务,继而提升投资体验。2019年3月8日,富途(Nasdaq: FUTU)正式登陆美国纳斯达克交易所。富途通过自主研发的一站式数字化金融服务平台富途牛牛和moomoo,为用户提供市场数据、财经资讯、投资社区、投资知识等服务;并通过集团旗下持牌券商,向客户提供港股、美股、A股通、新加坡股及澳股的股票交易和清算,融资融券,及财富管理等服务。富途以用户为中心构建起连接用户、投资者、分析师、媒体、企业和机构的投资生态系统。通过旗下富途安逸(FUTU I&E)品牌,集团为企业客户提供一站式ESOP解决方案、首次公开募股(IPO)分销、投资者关系和公共关系(IR&PR)等企业及机构服务,已成为多家知名企业信赖的合作伙伴。
雷畅 腾讯云高级工程师。拥有多年云原生/可观测/性能压测领域的研发经验,目前主要负责腾讯云可观测-云压测(PTS)产品研发。 导语 | 作为应用服务的提供者,在面对产品或新功能上线、活动大促(618、双十一)等重大变更时,明明一切看似无懈可击,到了关键时刻,却不知哪个“系统刺客”在偷偷地 kill 您的系统?我们如何才能“底气十足”地保证系统稳定,在这竞争激烈的时代留住“日益挑剔”的用户?正所谓 Testing is believing,这需要测试、测试、再测试! 前言 近日,腾讯云可观测平台-云压测 (P
背景 腾讯云容器服务TKE从2016年提供服务至今,已服务成千上万企业构建其容器化平台, 一方面,腾讯云容器团队在提供容器服务时积累并完善了一套万级K8s集群的etcd管理平台,用于支撑腾讯云容器产品稳定运行,该平台同时也支撑了腾讯内部业务如云监控,api网关,欢乐游戏等,另一方面,我们积极参与etcd社区,将我们大规模实践过程中遇到的问题和解决方案,反馈和贡献给社区,是社区2020年最活跃的贡献团队之一。 容器团队在多次客户访谈中了解到,很多客户不想自己运维etcd,期望能够使用腾讯云容器服务内部et
作者:Justin Ellingwood 翻译:云监控团队 前言 了解基础设施和系统的状态对于确保服务的可靠性和稳定性至关重要。有关部署的运行状况和性能的信息不仅可以帮助你的团队响应问题,还可以使他们更放心地进行变更。获得这些信息的最佳方式之一就是使用监控系统。监控系统可收集指标,可视化数据,并且在服务异常时向关注人发出告警。 在本篇指南中,我们将讨论什么是指标,监控和告警。我们要讨论它们的重要性,它们提供的机会,以及你可能希望监控的数据类型。过程中,我们会介绍一些关键术语,并以简短的词汇表总结和该领域相
亲爱的腾讯云监控的用户: 首先祝您新年快乐,在新的一年里身体健康,万事如意。 从第一条告警的消息从基础监控平台发出开始,腾讯云监控已经走过了数个春秋。在这段不算短的时间里,我们做得最多的就是思考:思考云监控的价值,思考云监控的意义。 当你感受到身体某一个器官存在的时候,那就是那个器官出问题之时。在一个各式各类云产品蓬勃发展的时代,监控产品,或许只有在您部署的告警阈值触发之时,才能感知到我们的存在。 如果说花团锦簇的暗处总要有人负重前行,那么我们愿意做那个不被注意的暗卫,在掌声与鲜花的背后默默保卫产品安全
对业务来说,完备的应用健康性和数据指标的监控非常重要,通过采集准确的监控指标、配置合理的告警机制,我们能够提前或者尽早发现问题,并做出响应、解决问题,进而保证产品的稳定性,提升用户体验。
很多用户在初次选择云服务器商家的时候,往往不知道怎么选择哪个云服务商好,因为国内云服务商众多,各有各的特点,但是目前选择腾讯云的用户越来越多了,我们就来说说为什么上云要首选阿里云。
原文作者:Angela Stringfellow
赵轩,高级运维工程师, 腾讯云监控业务运维负责人。 腾讯云监控的 Barad 产品,为云产品提供高效、低成本的海量指标监控服务。 Barad 业务经过云原生能力建设以及容灾能力建设,业务已经实现了自研上云全量级容器化部署及多可用区容灾能力。 Barad 业务上云面临的难点和挑战 在降本增效的大背景下,腾讯云 云监控团队继续提升云原生成熟度,提升系统承载能力和降低单位成本,包括对 Barad 业务在容器化占比提升,跨 az 容灾能力建设,资源利用率优化这些方面,因 Barad 业务量级庞大,如何保障大量级数
导语:本文介绍了腾讯云消息队列 CKafka 监控的最佳实践指南,帮助开发者免除繁琐的运维工作,并快速发现问题,提高工作效率。
作者:张加浪 腾讯云监控高级工程师 背景 十年一次的人口普查是涉及全国十几亿人的重大事情,每次人口普查都是对国人的一次梳理,国家和人民都十分重视。随着技术的不断创新,人口普查的普查方式也在不断升级,从人工加算盘到人工加老式计算机,再到卫星传感。 在第七次全国人口普查 (以下简称 “七人普”) 的到来之际,国家决定通过 “电子化方式普查登记,腾讯提供技术支持” 更快更准的普查方式,即实行云端普查登记。 七人普主要通过小程序方式进行制证、普查员注册、人口普查等,700 万的普查员,十几亿的普查对象,服务必
网站监控是网站管理中非常重要的一个环节,很多时候网站无法打开、服务宕机的时候基本上都不是访客因为无法访问网站发的邮件或者通过即时通信找的,这就显得很尴尬了。 所以我们需要使用一款企业级的监控工具来检测我们的网站,而阿里云·云监控就是这么一款非常好用的企业级监控服务工具,而且还是免费的哦!
专线相关介绍可参考https://cloud.tencent.com/document/product/216
大家好,我是云英负责存储的研发工程师,杨冠军,很高兴今天能在这里跟大家一起讨论分享下Ceph和Ceph在云英的实践。 首先我先介绍下,Ceph是什么,我们为什么选择Ceph? Ceph是最近开源系统中很火的一个项目,基于Sage Weil的一片博士论文发展而来的一个分布式文件系统,可提供PB级,动态可扩展,数据安全可靠的存储服务。Ceph提供分布式存储服务包括:块存储RBD,对象存储RADOSGW和CephFS三种,基本覆盖了绝大部分企业对存储的需求,所以越来越多企业加入到使用Ceph的行列。在国内也有越来
服务器性能监控是监控系统资源的过程,例如 CPU 使用率、内存消耗、存储容量、I/O 性能、网络正常运行时间等。
| 导语 :你是否也曾被“快点儿吧,等到花都谢了”洗脑,为又爱又恨的欢乐豆决战到天亮,为何欢乐斗地主能风靡全国,经久不衰,还一直能平稳流畅运行?其背后究竟有哪些运维小妙招?可让整体研运效率显著提升,节省30%+人力成本?..... 作者简介:Leehom,腾讯游戏专家开发工程师,负责腾讯欢乐游戏大规模分布式服务器架构。有十余年微服务架构经验,擅长分布式系统领域,有丰富的高性能高可用实践经验,目前正带领团队完成云原生技术栈的全面转型。 背景 基本信息: 客户名称:腾讯欢乐斗地主 行业:IT服务/软件 游戏行业
最近一场调查还是挺意外的,PostgreSQL超越MySQL成为最受欢迎的数据库。身边的客户也有不少开始采用PostgreSQL作为生产的数据库,同时大模型火热、常时记忆的需求,也催生了对向量数据库的需求,而PostgreSQL,众多原因让我不得不把目光投向了这款产品,准备写一篇系列文章介绍PostgreSQL的备份体系、高可用建设、混沌工程、监控体系等内容。
事件起因 新年伊始,又有一些不安分的黑客们出来兴风作浪了,近期比较受关注的主要是黑客组织们利用 MongoDB 一直存有的未授权访问问题[登录不需要用户名和密码认证]进行攻击,连接上数据库后把别人的数据备份,然后删除数据并勒索赎金。 如果您的数据库有可能遭到此类型攻击,那么务必认真看下本文中所提的解决方案与修复建议。 漏洞成因与后果 由于用户在使用 MongoDB 时,将服务直接开放在了公网上,并且直接采用了默认配置,而默认配置并没有开启鉴权访问[未设置账号密码],从而导致这个数据库谁都可以访问,这就好比你
对于传统意义的监控来说,监控系统属于安防系统中应用最多的系统之一,主要是用来监控异常和不好的事情发生,或者提供事件发生过程的记录和事后分析等功能。如视频监控系统就是典型的监控系统,视频监控系统就从早期的 CCTV 发展到 DVR到目前已经发展为基于 IP 网络的视频监控 IPVS。
长通物流是一家基于供应链管理集运输、仓储、物流配送、产品代理一体化的全方位综合物流服务商。随着社会的发展,行业环境的改变,为满足用户的需求不断创新,现在先研发第三代物流管理系统,预期8月部署上线,新系统的部署采用云服务的方式,满足新业务的安全需求、访问需求等。
互联网时代对系统的可靠性提出了更高的要求。关键系统往往要求 4 个 9 的可用性,也就是每年的不可用时间不能超过 53 分钟。与此同时,各种开源框架、工具以及工程方法的使用,在提升效率的同时,却也带来了系统架构复杂化、系统失败容易迅速蔓延放大的副作用。有时一个错误的数据操作或者一行简单的代码缺陷就能使核心系统瘫痪且迟迟无法恢复。为了应对这个挑战,不同的公司结合本身的技术能力和业务特点,形成了多样的可靠性最佳实践。 在今天由极客邦科技举办的 QCon 全球软件开发大会 2020(上海站)上,携程集团商旅事业部 CTO 宋涛博士发表了 主题演讲《搭建可靠性系统工程实践》,探讨技术负责人在提升系统可靠性时可能面对的各种权衡和选择,并分享了携程在相关工作的探索中遇到的挑战和得到的教训。以下内容为演讲整理。
Bob Neves和某编辑团队探讨论他发现用户正在做的可靠性测试和在实际使用中遇到的情况之间存在脱节,以及为什么现在的大部分可靠性测试都应该被视为耐用性测试。
网络可靠性是衡量基础设施无中断运行时间长短的标准。可靠性通过几个不同的公式进行评估。
9 月 23 日,腾讯云宣布与业界领先的开源数据可视化公司 Grafana Labs 达成深度合作协议,共同开发和验证全新的 Grafana 托管服务,通过 Grafana Labs 开源软件与腾讯云的整合,帮助用户快速对云上负载及性能指标数据进行可视化监测。 据了解,Grafana Labs 基于领先的开源可视化及仪表板技术 Grafana 项目,为用户提供开放且灵活的数据可视化观测系统,目前其全球安装量已超过 750,000 次。腾讯云自今年 4 月开始就与 Grafana Labs 展开合作,通
导语 腾讯云云监控于近日发布了两款产品:应用性能观测(APM)、前端性能监控(RUM),帮助用户解决调用链追踪问题,减少 MTTR(平均修复时间),以及帮助提升用户在 Web、小程序端的使用体验。 APM 集成微服务团队丰富的业务场景沉淀以及云监控打磨多年的高性能数据处理中台,云监控 - 应用性能观测平台(APM)正式开放测试。如果您的团队还在苦于日益复杂的后台服务架构、日渐增长的故障排查时间,我们诚邀您试用云监控 APM ,开启一体化、自动化的后台服务监控体验。 点击文末"阅读原文" 立即申请体验APM
文章旨在通过对 MongoDB 监控指标的梳理和架构的分解,帮助广大的腾讯云 MongoDB 用户更好的通过监控告警及时发现业务异常,实时监控数据趋势。内容将会包括三个部分:
领取专属 10元无门槛券
手把手带您无忧上云