首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

黄宇:腾讯计费——亿万级大促活动自动化保障体系

3.现网变更频繁,前端版本、后端版本发布,系统配置调整、营销活动规则调整等各种变更每天加起来平均300+次,大家都知道,变更带来的故障通常占到了现网故障的75%以上,所以在这么变更频发的平台上进行营销活动资源...在这里的自动化设计里,现网大盘由服务组成,服务由系统实例组成,而实例承载的基础是腾讯计费自研的TDF程序框架;的核心大脑就是TSM自动化管理平台,压测平台周期性压测现网容量,现网内存、负载、...这里采用KVM虚拟机构建用于自动的资源池,共享资源池会在日常扩容中出库消耗,在中退库,这样持续的循环。...以上介绍了自动化决策和自动化的机制,那么是不是有了这些自动化机制就万无一失了呢?...一是大盘容量的压测机制,二是快速机制,以及资源共享管理、变更扫描,和限频保护措施。 构建之后,自动化保障体系可以浓缩为如下示意图。

2.5K30

腾讯计费:亿万级大促活动自动化保障体系

3.现网变更频繁,前端版本、后端版本发布,系统配置调整、营销活动规则调整等各种变更每天加起来平均350+次,大家都知道,变更带来的故障通常占到了现网故障的75%以上,所以在这么变更频发的平台上进行营销活动资源...在这里的自动化设计里,现网大盘由服务组成,服务由系统实例组成,而实例承载的基础是腾讯计费自研的TDF程序框架;的核心大脑就是TSM自动化管理平台,压测平台周期性压测现网容量,现网内存、负载、...这里采用KVM虚拟机构建用于自动的资源池,共享资源池会在日常扩容中出库消耗,在中退库,这样持续的循环。...如何确保变更精准无误 一开始有提到,在日常频繁变更的现网大盘上进行操作,故障风险是非常高的,那么怎么确保这里的变更准确性呢?也就是怎么确保扩容上去的资源服务没有问题。...如何防止大盘雪崩风险 以上介绍了自动化决策和自动化的机制,那么是不是有了这些自动化机制就万无一失了呢?

2.8K30
您找到你想要的搜索结果了吗?
是的
没有找到

如何快速构建稳定、低延时的多人游戏的部署环境?

腾讯游戏服务器引擎(Game Server Engine,缩写GSE),支持有状态的游戏服务部署和,实现服务发现、高效灵活的服务器伸缩和就近调度的能力,帮助开发者快速构建稳定、低延时的多人游戏的部署环境...这是一个有状态的场景:对于游戏服务,尤其是对战服务来说,不能是简单添加一个clb(负载均衡)就能搞定。在游戏服务里需要断线重连,能找到之前连接的服务器;另外游戏过程不能因为中断游戏。...成本节约 服务器空闲导致的成本,如以下这些情况: · 每日&周末&节假日的高峰波谷 · 游戏稳定运营及下降期,服务器空闲资源 · 活动期间,爆发增长,活动过后需资源空闲 比起游戏运营成本来说,服务器成本算不了什么...游戏服务器引擎(Game Server Engine,缩写GSE)提供专用游戏服务器托管服务,支持有状态的游戏服务部署和,实现服务发现、高效灵活的服务器伸缩和就近调度的能力,帮助开发者快速构建稳定...不需要提前在多个区域部署相同数量的服务器,从而达到0成本灾的效果。 9.png 4. GSE和普通弹性伸缩的区别——GSE专注于有状态场景 游戏中有两个特殊需求:断线重连、游戏中不能退出。

9.9K339

英雄联盟自动化利器

自动化的目的主要有三个部分,首先是用户体验的保障,我们必须以最快的响应速度去应对用户增长的需求,否则必然会出现大规模的掉线或者拥挤排队,影响游戏基本体验;其次是资源的最有效利用,英雄联盟业务的单位运营成本...关于自动化利器的用户交互,主要用的是类似汽车的仪表盘的形式来展示相关时实施人员比较关心的数据。如图(2) ?...所向披靡-无所不能的容量云: 二期功能加入了监控和自动触发、等功能,真正实现采集性能数据、按照模型分析出结论、实施、性能数据达标等一系列操作,流程上把容量管理这件事做成闭环。...自动采集数据、分析出决策、实施操作的整体流程架构图如下: ?...才将云中的服务器扩到游戏大区中;如红色的箭头所示,通过自动化的,我们做到了自动化的将游戏大区中,尚且富余的服务器资源返还给业务云,然后由云在分配给需要使用的游戏大区,这样通过自动化的服务,我们做到了服务器资源自动化的动态调用

1.9K100

盘点电商大战背后的技术力量支撑

『目标』保证促销规则支持分时段设置,多活动可叠加,促销系统中数据量超过商品信息系统的前提下,促销内容会根据执行效果快速调整,以强大的促销系统,保证有序的促销活动,使促销系统承担营销功能。...[未来关注于业务层面的梳理与整合,逐步回收适用于活动模型的其他“类促销”业务。] step 4 : 完善促销系统查询服务,使其具备更强大的数据处理能力和更好的性能表现。...双十一需要扩容时,将待服务器ip地址加入Nginx配置,重新reload,该Nginx就可负载更多台应用服务器了。...隔离开关:在压力大的情况下,为个别容器进行动态的CPU,内存等扩容或,调整甚至放开磁盘iops限速和网络的TC限速。健康监测:定期的扫描线上可能存在的潜在风险,以提前发现问题解决问题有备无患。...焦点四——与已有运维系统的对接 Docker集群须能与现有运维系统无缝对接,才能快速响应,做到秒级的弹性扩容/

13.5K30

50W+ 小程序开发者背后的数据库降本增效实践

TDSQL-C Serverless 的技术实现   传统云数据库并没有实现自动、按使用量计费、无使用无费用。...在现实里,如果游戏厅就在你房间旁边,你房租的价格也会比其他地方的更贵。 计算跟存储分离,就是让房子和客厅解耦。只要解决传送问题(自动)就可以让这个房间的成本回归到它本身的价值。...常见的自动业务场景   慢查询。...当然你也可以选择在活动前扩容,活动。但这总的也不方便,而且并不是所有的活动都有足够的时间去规划。所以这时候就需要一个自动的能力。 定时任务。很多业务都会有定时任务的需求。...虽然你也可以根据计划去手动。但有些计划使用的计算资源不可控,时间也不可控。少了速度慢,可能还会影响到线上业务,多了又会浪费。

1.1K30

左手 VM,右手 Container Serverless,达达智能弹性伸缩架构和实践

嘉宾|杨森 编辑|李忠良 面对节假日常规促销、618/ 11 购物节等配送业务订单量的暴增,达达集团通过智能弹性伸缩架构和精细化的容量管理,有效地做到了业务系统对配送全链路履约和服务体验的保驾护航。...5架构演练——弹性演练 弹性系统需要保证全自动运行,所以我们会定期做一些弹性演练。接下来与大家分享时候遇到的一些问题。...第一,当你的时候,肯定不是只有几个服务,可能是批量地进行,然后去验证上下游扩容的系统是否 OK。这其中的问题是——你有没有足够的钱影响到限额?...如果设置不合理,常常会因为逻辑没有达成一致,而导致频繁地。 第四,大规模演练需要考虑到机器多 Region 均衡打散。...最后展望未来,这个系统是在 2019 年开发的,目前已经稳定运行了 20 多个月,有将近 18000 次的记录。整个系统也对接了多种云原生,包括全程全自动的,当然也做到了云的支持。

1.1K10

50W+小程序开发者背后的数据库降本增效实践

在现实里,如果游戏厅就在你房间旁边,你房租的价格也会比其他地方的更贵。 计算跟存储分离,就是让房子和客厅解耦。只要解决传送问题(自动)就可以让这个房间的成本回归到它本身的价值。...TDSQL-C Serverless 数据库特点 自动 按使用量计费 无使用无费用 我们希望你想要请求的时候,这个水资源能像瀑布一样倾泻而下,不需要业务提前感知。...当然你也可以选择在活动前扩容,活动。但这总的也不方便,而且并不是所有的活动都有足够的时间去规划。所以这时候就需要一个自动的能力。 定时任务 很多业务都会有定时任务的需求。...虽然你也可以根据计划去手动。但有些计划使用的计算资源不可控,时间也不可控。少了速度慢,可能还会影响到线上业务,多了话又是浪费。...用户数激增:自动。 小微项目:小规格实例 …… 目前我们做到了很多,未来我们还有很多可以去做。

1.3K10

腾讯游戏打通 Apache Pulsar 与 Envoy,构建高效 OTO 营销平台

OTO 服务通过基于 Kubernetes 的 GDP(游戏微服务开发平台),可以快速部署、自动和资源回收复用。...再配合 K8s 的 HPA 即可自动根据后端性能指标,极大提升资源利用率。 Pulsar 还支持对单个消息独立 Ack,可以很好地防止重复消费。...这样所有服务都在云端通过 K8s 调度,有高可用保障,只需调整副本数即可轻松。 基于事件总线的事件分发 事件总线用于规范事件管理,事件按业务和类型维度管理。...K8s 支持 HPA,通过监控容器 CPU 和其他内存指标,当达到一定阈值时,触发服务。这对一些队列消费服务不适用。...我们计划扩展 K8s 的 HPA,在监控 CPU 和内存等指标基础上再监控 msgBacklog,增强灵活性,防止消息堆积。

76430

最佳案例 | 日 PV 超百亿级的游戏营销服务云原生容器化之路

活动之间相互割裂,缺乏沉淀复用和共享 运营活动快上快下的特点非常适合跑在 TKE 环境,利用其弹性伸缩、快速特性应对活动突发流量。...自动,极大的提升了周期性游戏活动资源准备效率。...网关运营监控指标 业务容器性能监控指标 官网营销活动 官网营销活动HPA实践 业务需求场景:营销活动有定点开启特性,开启时流量会突增,且生命周期内流量波动较大,对资源有弹性需求。...需求 最终效果 分钟级扩容 优化后的 HPA 直接从 Metrics Server 取负载数据,扩容可以做到1分钟左右 原生 HPA 仅支持 Pod 粒度的 metric 计算,需要针对业务容器进行...container 时业务容器负载高,但是 Pod 整体负载低情况下可以扩容 支持 request、limit 多种方式触发 HPA 支持按 request、limit 的方式 HPA,覆盖不同的业务场景 事件

1.2K30

最佳案例 | 游戏知几 AI 助手的云原生容器化之路

通过云上的容器化部署、自动、健康检查、可观测性等手段,提高了知几项目的持续交付能力和稳定性,形成了一套适合游戏知几自身的上云实践方案。...,需要发布最新版本才能扩容; 依赖的权限(mysql 等)需要申请; 平台操作繁琐,容易出错; 需要人工完成运营活动后机器的操作。...基于上述的部署方案,利用云原生的自动能力可以方便地解决上述问题: STKE 提供的定时 HPA 和动态能力,可以很好的解决节假日、运营活动的流量突增带来的服务稳定性问题,且流量平稳后的自动可以有效的节约资源...由于 HPA 会导致业务容器的,如果流量在服务未完成启动时接入或者流量还在访问时接销毁 pod,会导致流量的损失,因此需要开启就绪检测和 prestop 配置。...特别是定时 HPA,可以很方便的满足知几在未成年人保护方面对的要求,系统可以在特定时间段完成系统容量的扩容和,在保证系统平稳应对流量的同时也不会造成对资源的浪费。

1.4K20

开源公告|微服务负载保护系统ModernFlux正式开源!

应用于腾讯IEG 80%的营销活动以及多个内部平台。经历各种秒杀活动游戏周年庆以及节假日,取得很好实践效果,保障了系统安全运营。现将ModernFlux对外开源,为微服务开源社区贡献力量。...数据传输具有容错机制,流控服务具有健壮性并有灾机制。 ...2.业务对负载保护系统无感知,即系统对业务透明。 3.在保证流控精度前提下,对业务流量(剧烈)变化不敏感,无需频繁。...应用场景有营销活动(如秒杀/周年庆),电商大促,多业务混布虚拟隔离。 大型游戏秒杀营销活动入口流量难以预估,由于流量瞬间暴增和营销资源有限,单纯堆砌资源成本高,也无必要,自动扩容往往也来不及。...ModernFlux应用效果 下图是部分ModernFlux应用于营销活动效果图,黄色线表示实际通过流量,黑色线表示被拒绝的流量,蓝色线表示上游的真实流量绿色表示整个Set流量控制(未触发): ?

77630

kubernetes 降本增效标准指南| 资源利用率提升工具大全

此外,针对例如基于业务单副本 QPS 大小来进行自动等复杂场景,可通过安装 prometheus-adapter 来实现自动,具体可参考文档[7]。 ?...2.1.2 通过 HPC 定时 假设你的业务是电商平台,双十一要进行促销活动,这时可以考虑使用 HPA 自动。...HPC(HorizontalPodCronscaler)是 TKE 自研组件,旨在定时控制副本数量,以达到提前、和提前触发动态扩容时资源不足的影响,相较社区的 CronHPA,额外支持: 与 HPA...1、HPC使用场景 以游戏服务为例,从周五晚上到周日晚上,游戏玩家数量暴增。如果可以将游戏服务器在星期五晚上前扩大规模,并在星期日晚上后缩放为原始规模,则可以为玩家提供更好的体验。...,CA 负责资源层(节点层)的,当 HPA 扩容造成集群整体资源不足时,会引发 Pod 的 Pending,Pod Pending 会触发 CA 扩充节点池以增加集群整体资源量,整体扩容逻辑可参考下图

2.8K43

【腾讯云 TDSQL-C Serverless 产品体验】饮水机式使用云数据库

自动驾驶(Autopilot):数据库根据业务负载自动启动停止,无感过程不会断开连接。...以11高负载的场景为例,提前发起的操作会导致运维效益随之大打折扣。不仅如此,固定规格对传统云数据库的计算进程常驻,无请求时仍然收费。...3.秒级能力。(1). 通过计算与存储解耦,存储空间可以自动,弹性能力显著。(2). 存储容量可以自动扩充,且容量足够大,足以支撑业务的发展。4.秒级快照备份回档能力。(1)....随着业务的增长,能够进行水平扩容,的整体响应好。...自动:不需要开发者提前去预测扩容的实例规格,通过系统的负载来进行自动的扩容。购买的时候,给用户提供一个区间,比如选择的是1核2G, 2核4G,就会只在这个固定的区间范围内进行

13.9K1660

干货 | 携程Redis治理演进之路(二)

方面,我们主要通过垂直的方式解决Redis集群容量的问题,但随着集群规模扩大,这种方式逐渐遇到了瓶颈。...垂直对于Redis来说只是Maxmemory的配置更改,对业务透明; 第二,水平拆分/的实现难度和成本较高。...三、Redis水平 3.1 设计思路 ? 图4 既然分片比较困难,我们首先想到的是业务写集群的方法,也就是业务同时写2个新老集群,新老集群的分片数是不一样的,并且大小配置也不一样。...借鉴业务写集群的思路和云原生的不可变基础设施的理念,我们首先想到的是通过新集群替换老集群而不是原地修改集群;另外,为了在公有云上节省Redis成本,我们积累了kvrocks的实践经验,两者相结合,设计了一种高效的水平的方案...根据实际的运维数据来看,集群单个实例为20G,集群在10分钟之内完成,而低于10G的,5分钟即可完成,大大缩短了的周期,并且业务在毫无感知的情况下即可完成

1.1K10

什么数据库能抗住《王者荣耀》的1亿DAU?

这就致使了《王者荣耀》对数据库性能、稳定性、、成本、游戏特有场景等方面有着更高要求。...从游戏业务场景的角度出发,TcaplusDB支持表级和记录级的数据生命周期管理,能够有效实现活动数据的过期清理。...以过载保护为例,TcaplusDB能站在“游戏服务器”的视角感知业务过载,通过处理时延、队列长度、成功率等指标综合评估数据库的负载能力,对高负载应用进行保护,防止雪崩发生。...历经腾讯内部8年的游戏经验积累,TcaplusDB数据库已广泛应用于《王者荣耀》、《刺激战场》、《穿越火线》、《火影忍者》等数百款流行游戏,并通过腾讯云向全球游戏业务提供服务。...上云就上腾讯云,双十一全网年度最低价来袭:MySQL高可用版1C2G低至99元/年!更有价值11000元代金券大礼包等你来领取,玩法简单直接,错过又要等一年! ↓↓点击直达11会场~

3.5K50

腾讯云专家揭秘国内首款无服务器数据库架构

不久前,腾讯云发布了国内第一款无服务器数据库ServerlessDB,受到众多数据库开发者的关注,关于该数据库的自动能力以及背后的设计原理展开了激烈的探讨。...PartⅠ 真正实现自动的挑战 相比较于传统数据库,云数据库的弹性和按量计费能够帮助用户按需使用云资源,避免资源浪费的同时大幅节省了成本。...当用户访问请求上涨时,数据库针对用户请求的特点使用不同的系统资源,而这些资源需要动态的响应,且不会受到服务器限制。不同资源的粒度需要小到一个数据块——CPU核心。...腾讯云ServerlessDB采用租户隔离以及连接池管理技术,从而实现了技术层面上真正的弹性。 1....快速能力 在租户隔离技术避免了不同租户之间的访问越界问题后,在方面,ServerlessDB是如何保证对用户进行细粒度控制的呢?

4.7K50

AutoScaling 目标追踪伸缩规则概述「建议收藏」

对于过程,这意味着过程的精度和效率无法协调。 调整过程缺乏控制。基于简单报警规则的动态调整策略,仅仅是将如何调整和何时调整这两个定义简单组合起来,缺乏有效的控制手段。...快速、精准、动态的。目标追踪伸缩规则增加了对监控数据的感知能力,根据历史的监控数据值和期望目标值计算出所需要的实例数,使用尽量少的调整过程趋近监控指标目标值。 实例预热。...当报警规则发生报警时,将触发对应的操作,弹性伸缩将根据监控指标的历史数据计算过程的实例个数。...例如,您可能会遇到作用于过程的报警规则一直处于报警状态,却没有活动发生的情况。这种情况主要是由于过程计算得到的实例数量少于一个,因此不会产生实际的伸缩活动。...任何修改都将导致拒绝执行对应的/活动,当您删除伸缩规则时,相应的报警规则会自动删除。

82920

带妹上分,团战五杀,光有技术可不行

另外,对于底层架构来说,相比较于其他类型业务,游戏业务除去常规的业务高峰时间预估之外,很难做到业务爆发的时间准确判断,作为国民手游的王者荣耀也存在因各类突发事件和特殊时期带来的巨大流量,这对底层数据库自动能力提出了巨大挑战...在这种访问模式下,游戏服务器操作平均响应时延小于4ms,存储层读写时延为微秒级。 ?...我们都知道,面对随时会出现的业务高峰和低谷,人力运维存在明显弊端,这就对系统的智能化能力提出了高要求,而高频的业务忽高忽低,导致伸和同时出现,会使得数据库无法处理请求,严重的还会导致数据库宕机,所以要实现系统智能根据业务情况进行自动是非常困难的...四、接入层是无损的,业务无感知 TcaplusDB自研了SDK,SDK内维护了接入层一致性hash环,天然支持增加或者减少接入层节点。...1 PartⅢ 结语 TcaplusDB是一款腾讯自研的高性能内存式分布式数据库系统,具有高性能、无损、高可用、易用性等特性,针对游戏业务的开发、运营需求,支持全区全服、分区分服的业务模式,提供不停服

1.6K60

总包价29.9,云开发域名备案上线丨附双十一惊喜优惠

此外,云开发还限时推出「备案多久送多久」福利:截止到11月30日,通过活动页成功购买云托管备案资源包,7天内系统会自动到账35元云开发代金券,可按需购买时长最少1个月的云开发资源,用于抵消备案期间云开发应用产生的资源消耗...作为新一代云原生应用引擎(App Engine 2.0),云托管拥有无痛迁移、自动化弹性、免运维、支持跨平台部署和联动云开发能力等优势,让开发者可以不限语言框架,低成本迁移上云开发,有效提升开发效率...问:云托管备案流程与云服务器备案流程是否一致? 答:云托管备案与云服务器备案流程上并无实质性差别,所有体验完全一致。 ? 即日起至11月30日,腾讯云 11.11 云上盛惠,震撼来袭!...双十一大促,除了特惠资源包,更有100%中奖的抽奖专区和万元代金券大礼包等你来领: ?...产品介绍 云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为开发者提供高可用、自动弹性的后端云服务,包含计算、存储、托管等serverless化能力

12.6K20
领券