
•报告标题:2023腾讯云容器和函数计算技术实践精选集
•发布机构:腾讯云
•发布时间:2023年
•行业标签:游戏,零售,教育,电商,技术服务,传媒
•产品标签:
#TKE容器服务
#Serverless云函数SCF
#Crane
#TKE注册节点
#qGPU
#云监控Barad
#CTSDB
#COS对象存储
#CFS文件存储
#TCR容器镜像服务
#TKE Serverless/超级节点
#TDSQL-C
#云原生API网关
#TACO Kit
腾讯自研业务已完成全面上云,云上资源规模突破 5000万核,3年累计节省成本 超30亿元,成为国内最大规模的云原生实践。本报告旨在汇集游戏、零售、教育、大数据等多个行业的代表性技术案例,展示腾讯云在容器(TKE)与函数计算(SCF)领域的最佳实践。核心目标是通过分享 Crane 成本优化、大规模集群调度、Serverless 架构升级及混合云管理等实战经验,为企业提供数字化转型与降本增效的参考路径。
• 前言
• 云监控 Barad的云原生实践
• Crane-Scheduler:真实工作负载感知的调度器设计与实现
• FinOps 时代如何玩转应用资源配置
• 腾讯云 Serverless 函数跑在 K8s 上,突破企业服务新格局
• 【精彩回顾】Serverless Days演讲资料大公开!
• 浅谈K8s PodIP分配机制
• 云原生场景下,如何缓减容器隔离漏洞,监控内核关键路径?
• Stable Diffusion 腾讯云云原生容器部署实践
• 无处不在的离线算力-Crane基于Virtual Kubelet的实践
• Kins(K3s in SuperEdge)海量K3s集群秒级部署
• 大规模集群仿真模拟与调度器压测方法
• TKE注册节点,IDC轻量云原生上云的最佳路径
• 将云原生进行到底:腾讯百万级别容器云平台实践揭秘
• 腾讯全面上云之后的首次春保:这里的夜晚静悄悄
• 深度复盘-重启 etcd引发的异常
• Serverless &游戏案例
• 新零售标杆案例:沃尔玛山姆会员店采用腾讯云Serverless的应用实践
• 某在线教育企业采用腾讯云 Serverless 在【全景录制】场景中的落地实践
• 降本超30%,智聆口语通过TKE注册节点实现IDCGPU节点降本增效实践
• 降本40%,数数科技大数据查询引擎云原生实践
• 有赞在使用腾讯云 SCFServerless & 自研云案例构建有赞云的落地实践
• 喜报!腾讯云原生 Serverless SCF on K8s 获信通院技术创新领航者奖
• 结语
• 研究方法:
• 定性分析与定量分析结合:涵盖架构设计复盘、故障深度排查(如etcd重启异常)、成本收益测算(FinOps)。
• 样本规模:基于腾讯自研业务(微信、QQ、腾讯会议等)百万级容器集群实践,以及外部客户(英雄联盟手游、沃尔玛、有赞等)落地案例。
• 压测方法:采用 KWOK (Kubernetes WithOut Kubelet) 模拟大规模集群(如5000节点),结合自定义测试程序分析调度器性能(QPS、时延、资源消耗)。
• 分析模型:
• FinOps优化模型:基于Pod资源利用率公式(Utilization = Usage / Request),通过Crane开源项目实现资源推荐、动态调度与混部。
• 调度架构:基于Kubernetes调度框架(Filter/Score/Reserve等扩展点)进行真实负载感知调度(Crane-Scheduler)。
• 数据来源与时间:
• 数据来自腾讯云内部监控平台、Prometheus监控数据、业务运营数据及第三方客户反馈。
• 主要技术实践集中在2022年至2023年期间,部分案例(如春保)涵盖了腾讯全面上云后的长期观测数据。
• 降本增效量化成果:
• 腾讯自研业务上云3年累计节省 超30亿元。
• 智聆口语通过TKE注册节点实现 降本超30%,节约2个运维人力。
• 数数科技通过TKE Serverless模式优化大数据查询引擎,月度硬件成本下降 约40%,查询响应速度提升50%。
• 微信春保期间,资源利用率提升1倍(CPU峰均值达45%以上),交付效率提升50%,扩缩容效率提升5倍以上。
• 核心技术解决方案:
• 混合云与资源利旧:TKE注册节点支持将IDC存量服务器纳入TKE集群统一管理,节点资源平均水位由15%提升至 50%,已支持上万台IDC节点,CPU累计超 500万核。
• 智能调度与FinOps:Crane 项目通过真实负载感知调度(Crane-Scheduler)和资源推荐算法,解决K8s默认调度基于Request导致的资源浪费问题,支持CPU/Memory的精细化配置。
• Serverless架构升级:SCF on K8s 实现Serverless能力与企业自有K8s集群解耦,支持公有云、私有云及混合云部署,解决大型企业预算管控、资源quota及合规需求。
• 极致弹性与隔离:qGPU 技术实现GPU算力和显存的强隔离与细粒度切分(支持1/10卡),提升GPU利用率;TKE Serverless(超级节点) 支持秒级启动上万Pod。
• 稳定性保障:通过深度复盘etcd重启导致的APIServer请求超时问题,定位到内核TCP MSS值与SYN Cookie机制的交互Bug,展示了从应用到内核层面的全链路排查能力。
• 行业领先与权威认可:
• 腾讯云函数 SCF 累计服务 超200万开发者,日均调用量达 3亿次。
• 据Forrester报告,腾讯云Serverless位列 中国Top1,全球Top3。
• SCF on K8s 与 TCS(专有云PaaS平台) 在2023年度云原生产联盟评选中,荣获 “云原生技术创新领航者-云原生技术创新案例”(由工信部与信通院颁发)。
• 国内首家通过信通院FaaS标准认证的服务商。
• 技术先进性与唯一性:
• 业界首创:实现在离线混合资源池模式,通过Virtual Kubelet将K8s集群闲置资源抽取为离线算力,提升整体资源利用率。
• 唯一性:TKE支持单个集群兼容多种计算节点(标准节点、超级节点、注册节点),统一管理云上云下资源。
• 开源贡献:主导开源项目 Crane(云原生成本优化),提供动态调度、资源推荐、混部等FinOps能力;发起 SuperEdge(边缘容器)及 Kins(K3s in SuperEdge)项目。
• 大规模实践验证:
• 支撑腾讯自研业务全面上云,管理 百万级别 容器实例,云上资源规模突破 5000万核。
• 支撑国民级应用:包括 英雄联盟手游(App Store年度游戏)、沃尔玛山姆会员店(国内会员制商店领先者)、腾讯会议(服务超3亿用户)等。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。