首页
学习
活动
专区
工具
TVP
发布

TakinTalks稳定性社区

专栏作者
16
文章
3445
阅读量
12
订阅数
蚂蚁集团:Apache HoraeDB时序数据库性能提升2-4倍是如何做到的?
Apache HoraeDB 是蚂蚁集团针对高基数时序数据场景设计并优化的开源时序数据库,后捐献给 Apache 软件基金会。它专门针对需要处理大量时间序列数据的应用场景,如物联网(IoT)、应用性能监控(APM)和金融交易监控等。
TakinTalks稳定性社区
2024-04-28
1040
100+次演练验证:酷家乐如何打造高效的自动化演练平台?
酷家乐自某次故障后开始升级演练平台,旨在提高系统在面对真实故障时的应急响应效率。面对业务线真实场景演练中高达39%的人工验证比例这一瓶颈,酷家乐构建了自动化流水线,设计了针对性的自动化用例,并选择了合适的自动化框架,确立了清晰的自动化流程。这些措施显著提升了自动验证效率,2023年第三季度演练次数超过100次,展现了自动化演练平台在提升系统稳定性和可靠性方面的显著成效。详细的解决策略和方法,请参阅文章正文。
TakinTalks稳定性社区
2024-04-15
600
1秒内审核3万条SQL:如何用规范识别与解决数据库风险?
数据库是存储关键信息、支持业务运营和分析决策的基石。然而,数据库的复杂性——研发效率低、安全管控难、变更不稳定、数据管控难,和对其稳定性、安全性的极高要求同样使得它们成为企业 IT 结构中的一个脆弱环节。通过数据库规范的建设,NineData平台目前已支持100+规范,覆盖60种数据源,已审核800万 SQL,实现3万条 SQL 1秒审核完。详细的实践方法和细节,请参阅文章正文。
TakinTalks稳定性社区
2024-03-21
940
日志资源成本减少35%:新东方可观测体系改造如何降本增效?
新东方的可观测标准化改造开始于2021年下半年。一直以来,新东方致力于提供综合性教育服务,这包括了双减政策实施前的K12教育阶段,以及之后的素质教育、智慧教育、成人教育和国际教育等多方面的教育体系。
TakinTalks稳定性社区
2024-01-29
1970
去哪儿如何实现故障率降低65%?技术+管理的数字化度量体系实践
如何全面把握系统现状,以便在关键时刻做出明智的决策?这是很多负责全局稳定性的管理者深感关切的问题。基于这一背景,同时也为了寻求提升研发工作效率提升,去哪儿网构建了一套数字化质量度量体系,以此来更精确地度量、管理并提升系统稳定性。
TakinTalks稳定性社区
2023-12-12
2110
去哪儿“技术债”偿还实践:如何高效、低风险砍掉50%无用代码?
TakinTalks稳定性社区专家团成员,去哪儿旅行基础架构组技术专家。公司云原生 SIG 成员,负责测试环境治理平台、代码精简平台、组件市场等,专注于研发效能领域。2022 年深度参与的“线上代码精简50%”项目获得公司级技术型一等奖,指导多个团队完成系统精简,积累了大量经验。
TakinTalks稳定性社区
2023-12-04
2040
七年4个阶段:滴滴可观测架构演进与实践
TakinTalks稳定性社区专家团成员,滴滴出行可观测架构负责人。深耕可观测领域多年,专注于架构设计与优化。带领团队完成了滴滴第二代到第四代的架构迭代。多个可观测开源项目的Contributor。目前聚焦在滴滴可观测的稳定性建设和滴滴场景下的可观测性的实现与落地工作。
TakinTalks稳定性社区
2023-12-04
3000
故障发现、定位提效超70%,去哪儿可观测体系做了哪些优化?
TakinTalks稳定性社区专家团成员。2018年加入去哪儿网,目前负责去哪儿网CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设,协助业务线大规模应用迁移至容器平台,完成监控系统Watcher2.0的改造升级和根因分析系统落地。对监控告警、CI/CD、DevOps有深入的理解和实践经验。
TakinTalks稳定性社区
2023-12-04
3390
APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践
TakinTalks稳定性社区专家团成员。毕业于大连理工大学,10年以上大型分布式基础架构经验,专注于大型分布式基础架构和大数据处理领域。曾就职于58集团,主要负责58到家基础架构工作。后进入去哪儿旅行,负责分布式链路追踪系统的建设以及APM体系的搭建。在大数据、高并发的场景有丰富的经验。
TakinTalks稳定性社区
2023-12-04
2120
SRE实战:如何低成本推进风险治理?稳定性与架构优化的3个策略
TakinTalks稳定性社区发起人。参编《信息系统稳定性保障能力建设指南1.0》和《稳定性保障服务商能力要求》。2017年联合创立数列科技,专注于高可用性领域,为企业提供稳定性解决方案,帮助快速稳定地应对技术挑战。
TakinTalks稳定性社区
2023-12-04
2800
月近万次发布,故障率<4‰如何做到?去哪儿测试左移重难点揭秘!
TakinTalks社区专家团成员。2019年加入去哪儿网,负责测试流程的治理和测试工具建设。主导/参与建设的平台有自动化测试、全链路压测、代码覆盖率、Mock平台、智能推荐等。曾先后就职于京东商城、海尔集团等,擅长性能压测平台建设,并实现近亿级QPS压测,曾多次为618、双11等重要活动保驾护航;
TakinTalks稳定性社区
2023-12-04
2720
如何在金融企业推进故障演练?中国人寿分阶段实践总结
TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入的理解和实践经验。
TakinTalks稳定性社区
2023-12-04
2050
支撑百万商户、千亿级调用:微盟如何通过链路设计降本40%?
TakinTalks稳定性社区专家团成员。2017年加入微盟,目前负责公司APM体系建设,包含APM体系从规范到实施,推动APM体系在公司的落地,主导了微盟APM平台、监控告警平台等平台的建设。
TakinTalks稳定性社区
2023-12-04
1670
“930大促”日活增速超40% ,哈啰如何用预案高效应急?
TakinTalks稳定性社区专家团成员。十年互联网行业研发经验,2015年加入哈啰出行,参与哈啰业务系统从0到1的建设,作为核心Owner主导多个重点稳定性保障项目,在高可用架构、技术风险等领域有丰富经验。目前主要牵头哈啰稳定性保障体系化建设,通过人员组织建设、工具/平台建设、关键项目落地等措施保障哈啰所有业务稳定性。
TakinTalks稳定性社区
2023-12-04
2730
B站容量管理:游戏赛事等大型活动资源如何快速提升10+倍?
TakinTalks社区专家团成员,2020年加入B站,先后负责主站/直播/OGV/推广搜相关的SRE工作。深度参与多活、活动保障、混沌工程、容量治理相关的建设,并主导容量管理平台、混沌平台的架构设计和落地。曾负责B站S赛、跨年晚会、拜年祭等相关活动的基础架构保障工作,目前主要负责推广搜业务的稳定性建设、PaaS治理。
TakinTalks稳定性社区
2023-12-04
2290
虎牙SRE谈可观测:如何做到比用户和老板更早发现业务异常?
TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。熟悉基于微服务架构的直播业务、音视频业务、海外直播业务的稳定的保障体系。在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。参编信通院《信息系统稳定性保障能力建设指南》。
TakinTalks稳定性社区
2023-12-04
2980
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档