首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

K8s: Java应用OOMKilled原因与分析

然而,仍然存在一些问题: 为什么container_memory_working_set和container_memory_rss接近 100%,而 JVM 堆和非堆使用率显着降低? 2....为什么进程内存使用率仍然接近100%,几乎达到Pod内存限制? 分析 为什么Java总内存使用量远低于系统内存使用量?...因此,从容器/Pod 角度来看,WSS/RSS 使用率显得很高,而在 JVM 内,堆内存和非堆内存使用率仍然很低。...--https://openjdk.org/jeps/346 因此,虽然Java进程实际内存使用量可能很低,但JVM预分配提交内存可能会高得多,并且不会立即返回给系统。...Rs 07:02 0:00 ps -aux 因此,这两个指标都是值得信赖,但它们之间仍然存在 300MB 左右差距。 为什么增加 Pod 内存限制后系统内存使用率仍然接近 100%?

1.1K10

kubernetes 降本增效标准指南| 资源利用率提升工具大全

本篇文章将带你了解:为什么 Kubernetes 集群中 CPU 和内存资源利用率 通常都如此之低?现阶段在 TKE 上面有哪些产品化方法可以轻松提升资源利用率?...如下图所示:同一业务在不同时间段对资源请求量不同,如果用户设置是固定 Request,业务在负载较低时利用率很低。 ?...计算资源:对所有容器设置 CPU 和内存使用量范围 存储资源:对所有 PVC 能申请存储空间范围 比例设置:控制一种资源 Request 和 Limit 之间比例 默认值:对所有容器设置默认 Request...因为集群整体资源使用量直接决定了账单费用,这种集群级别的弹性扩缩将真正节省使用成本。...云原生技术借助容器完整(CPU,内存,磁盘IO,网络IO等)隔离能力,及 Kubernetes 强大编排调度能力,实现在线和离线业务混合部署,从而使在离线业务充分利用在线业务空闲时段资源,以提高资源利用率

2.8K43
您找到你想要的搜索结果了吗?
是的
没有找到

kubernetes 降本增效标准指南|ProphetPilot:容器智能成本管理引擎

在前几期“降本增效”系列文章中,我们谈到了成本控制系统、常用用率提升工具、资源利用率现象剖析、理解和应用弹性。...负载 CPU 使用量是否是周期性变化?例2. 负载是否在某些固定时刻流量会上升或下降?例3. 负载里容器 Request 是否设置合理?...,可以设置比较大资源使用冗余,及时资源利用率很低也被判断为正常情况。...,但是选择了按量计费,此时如果更换为包年包月将会更加划算; 竞价实例:比如集群资源不足,同时当前可能只是需要短时间运行离线任务,对于服务保证要求不高,但是对于成本有控制,则此时可以采用弹性竞价实例模式...; 机型配置 机型主要是CPU、内存、磁盘等配置,包括硬件型号以及规格大小,ProphetPilot 通过评估集群节点资源,以及业务规模,未来增长趋势,在满足业务资源需求前提下,通过搜索不同机型配置和价格空间

1.2K72

Elastic-5分钟教程:使用Elastic进行快速根因分析

探索可能与我们问题有关其他异常情况 我们很快就能看到 我们机器学习工作 检测到我们内存和CPU使用率出现异常 还有一些与缓存相关有趣异常现象 让我们看看我们可以在APM应用程序中找到这些异常情况...让我们继续调查,通过检查 这些指标可以为我们提供哪些洞察力 关于运行广告服务Kubernetes Pod 在发布之后 CPU大幅增加 内存使用量呈现峰值 非常不稳定 我们去看看日志吧 应用程序,看看我们能发现什么...关于特定堆问题 以及是否与事务超时错误有关 我们可以访问与高持续时间交易相关POD日志 我将缩小查询范围以查找相关heap或memory事件 我们可以看到 广告服务正在终止 由于内存不足 但是为什么呢...我们知道 尝试接收添加时出现与缓存和超时错误相关异常 上下文中日志向我们表明 这些异常和错误正在发生 因为item被添加到缓存中 直到没有足够内存而使广告服务终止 并重新启动 广告服务中平均交易持续时间较长根本原因是版本损坏...它在缓存项目时不验证是否有足够内存 结果 广告服务一直在重新启动 并且不能响应请求 显著增加了响应时间 通过回滚损坏版本来控制该问题 我们会修复广告服务 以避免消耗过多内存 感谢收看这段简短视频

1.9K31

容器运行时技术内幕 (8) 不讲武德抗日神剧

在上期,我们分析了容器弹性伸缩功能,发现了基于容器部署服务能够扛住网黄明星出轨等爆炸新闻带来冲击奥秘一半——KubernetesHPA组件,可以根据诸如Prometheus这样性能监控平台反馈数据...让我们看一个栗子: 小X为某视频网站P站,部署HPA V2实现容器弹性伸缩,并采用Prometheus监控apache httpd性能。...metrics字段体现了参照指标: CPU利用率目标为75%,内存占用量目标为80MB。...很快,最新抗日神剧《XX战将》播出,随着收视率攀升,原本部署3个httpd容器CPU与RAM使用量也不断上升。...在某时刻,3个容器CPU与RAM使用量如下: CPURAM容器177%75MB容器284%72MB容器388%70MB 显然,CPU使用量已经超过了75%,而RAM使用量并没有超过80MB。

59820

生气!能省 50% 成本,为啥你不早点让我用 HPA

) 当使用率超过阈值时,HPA 会增加 Pod 副本数量。...这里有两个问题需要思考 一个 Pod 可能有多个容器,一个容器使用率 90%,一个容器使用率 10% 在 Kubernetes v1.27 中有一个 Beta 特性 ContainerResource,...CPU 如下图,应用经常会碰到,CPU 使用率很低,但是 CPU 限流很严重,需要不断地提高 CPU Limit,而过高 Limit 又会导致节点不稳定。...上限最好设置得比平时多一些,同时设置为 5 倍数为宜,方便识别扩容数量达到 HPA 上限之后,继续增加。 CPU 使用率 CPU 使用率设置得越低,扩容时就越灵敏;设置得越高,资源用率就越低。...另外可以考虑是,将长期占用弹性公有云机器转移到私有云,或者采用公有云包年结算方式,因为云厂按需付费弹性主机价格比较高。 7.

38700

智能 Request 推荐,K8s 资源利用率提升 252%

为什么 Kubernetes 集群资源利用率依旧不高?...分配率是用所有容器对 CPU Request 之和除以集群所有节点 CPU 数量,使用率是所有容器对 CPU Usage 之和除以集群所有节点 CPU 数量: 可见集群整体 CPU 分配率在...在过去一段时间存在过容器 CPU 和 内存监控指标,计算相应 P99 值,再乘以一个安全系数(例如:1.15),当作推荐 Request。...以高峰期资源需求为准设置 Request,使得业务在空闲时段占有大量并不使用资源,导致应用平均资源利用率依然不高。此时,想要做进一步优化,就需要借助弹性伸缩手段。...蓝线是给出弹性推荐资源使用量 CRANE 和 AHPA 即将开源,敬请期待。

3.4K40

优化生产环境中 Kubernetes 资源分配

如果没有设置 limits 并且资源使用量超过了 requests 阈值,那么该容器资源使用量很快会被限制到低于 requests 阈值。...这意味着容器资源使用量可以达到 requests 阈值,同时如果该容器运行节点上资源充足,那么容器可以继续使用资源,只要不超过 limits 阈值就行。...下面是我们在测试过程中发现一些故障模式: 内存缓慢增加 CPU 使用率达到 100% 响应时间太长 请求被丢弃 不同请求响应时间差异很大 你最好将这些发现都收集起来,以备不时之需,因为有一天它们可能会为你或团队节省一整天时间...一些有用工具 虽然你可以使用 Apache Bench 等工具来增加负载,也可以使用 cAdvisor 来可视化资源使用率,但这里我要介绍一些更适合负载测试工具。...这将会为你系统增加弹性能力和可预测性,使你客户更满意,并有望帮助你获得更多睡眠时间。

1.5K30

服务亿级图片压缩那些事

可行性 图片压缩迁移弹性计算平台之前,采用压缩程序混部存储机器策略,虽然节省计算资源设备成本,但混部运营面临如下几个问题,并增加了人力运营成本: 1、资源利用率低 采用静态资源设备混部方式,图片压缩业务在规划资源时...针对资源潜伏恶性竞争,弹性平台在复用docker在cpu、内存隔离基础上,并沿用了cgroup中quota、share、period配置限制策略,但此类技术仅对资源管控,并不能灵活应对程序对cpu...时间片毛刺,对此,弹性平台创新提出动态捆绑cpu策略,监控cpu核负载前提下,调度容器跑在负载低cpu上,cpu调度后效果。...针对业务需求量与资源使用量矛盾,平台从资源调度角度完美解决:资源按需供应,盘活资源整体使用,通过对容器上报cpu、内存、磁盘io及占用量和网络io等数据分析,构建业务负载监控,并在引入InfluxDB...下面的两个图是压缩容器量和cpu负载图,全天cpu使用率几乎稳定在一条直线。

2.1K00

助力成本优化,腾讯全场景在离线混部系统Caelus正式开源

近年来,随着互联网业务发展,大数据类任务资源需求呈指数级增长,资源成本问题突出。但各大权威机构调研数据显示行业目前在线资源利用率普遍很低,平均维持在15%左右,资源浪费严重。...对此,业内一直在进行诸多探索,在线离线混部被认为是解决该问题终极方案。...,无法利用大量非容器在线空闲资源; 部分混部方案要求大数据必须云原生化改造,增加了依赖条件; 资源复用在粒度、灵活性、时间等方面策略都不够精细,导致利用率不高; 缺乏比较好干扰检测机制,导致在线服务质量无法很好保证...适用全场景 Caelus 目前在线作业容器化已成为主流,但绝大公司在线业务还有相当大未容器存量,或有些业务(如存储类服务)不适合容器化,这些没有经过容器在线应用,没有很好资源隔离方式,但资源非常可观...对于资源隔离,Caelus采用全维度弹性资源隔离,包括CPU、内存、磁盘IO、磁盘空间、网络IO等。同时可以配合腾讯OS版本,进一步提升资源隔离效果。

1.1K40

助力成本优化,腾讯全场景在离线混部系统Caelus正式开源

近年来,随着互联网业务发展,大数据类任务资源需求呈指数级增长,资源成本问题突出。但各大权威机构调研数据显示行业目前在线资源利用率普遍很低,平均维持在15%左右,资源浪费严重。...对此,业内一直在进行诸多探索,在线离线混部被认为是解决该问题终极方案。...部分混部方案要求大数据必须云原生化改造,增加了依赖条件; 3. 资源复用在粒度、灵活性、时间等方面策略都不够精细,导致利用率不高; 4....适用全场景 目前在线作业容器化已成为主流,但绝大公司在线业务还有相当大未容器存量,或有些业务(如存储类服务)不适合容器化,这些没有经过容器在线应用,没有很好资源隔离方式,但资源非常可观,...对于资源隔离,Caelus采用全维度弹性资源隔离,包括CPU、内存、磁盘IO、磁盘空间、网络IO等。同时可以配合腾讯OS版本,进一步提升资源隔离效果。

48141

谷歌每年节省上亿美金,资源利用率高达60%,用技术有多厉害!

在线服务:往往长时间运行,服务流量存在周期特性,整体资源使用率不高,但是对服务 SLA 却有着极高要求,如网页搜索服务、电商交易服务等。...比如外卖业务,峰值期(吃饭时间)可能需要8 核 CPU,但是在低峰期(夜晚),可能就不消耗资源,导致大部分时间段资源利用率很低,造成浪费。...在 CPU 方面,给创建 Pod 指定 Limit,就可以通过 Cgroup quota 限制容器最大资源使用量,采用 CPU share 权重来划分不同应用 CPU 权重,但是这种手段在资源不紧张时候还可以...往期精选推荐   资源利用率提高67%,腾讯实时风控平台云原生容器化之路 云原生弹性 AI 训练系列之二:PyTorch 1.9.0 弹性分布式训练设计与实现 云原生应用安全落地,你需要了解容器安全体系...视频教程来了~易学易用搞定SuperEdge边缘容器系列 内存回收导致关键业务抖动案例分析-论云原生OS内存QoS保障

2K20

Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度

现代互联网数据中心规模随着应用服务需求快速增长而不断扩大,但服务器资源利用率一直很低,导致企业基础设施成本不断上涨。随着云原生技术发展,混合部署成为了降低成本一大手段。...云原生与资源利用率现状 云原生概念在2013年由Matt Stine提出并沿用至今,经过不断总结完善,已经涵盖了DevOps、持续交付、微服务、容器化等主题,成为一套完整技术方法体系。...分开部署导致服务器普遍存在空闲周期,很多业务空闲期远长于高峰期,导致总体资源利用率很低。...,CPU实际使用值在20%上下,但预留值接近80%,超出了实际使用值三倍,内存预留则超出了实际使用值1.5倍。...针对作业类型感知,Volcano通过作业混合部署+资源超卖方式,实现集群资源利用率提升,示意如下: 图 4 混合调度超卖示意图 资源超卖是指将集群资源申请量与使用量差值进行再次分配,进而提升集群资源使用率

1.2K20

最佳实践 | 作业帮云原生成本优化实践

随着业务需求发展,作业帮 IT 系统面临巨大挑战,现有基础平台架构已经无法满足快速增长业务需求。业务对快速迭代、急速弹性、调用链追踪、统一监控日志平台、提升计算资源利用率等需求迫在眉睫。...调度优化,整体提升计算利用率 容器服务使用统一集群,常态在40%左右,在保障业务稳定情况下极限可达60%。机器利用率大幅度提升。碎片化问题也得到彻底解决。...但中间过程是曲折,和腾讯云一起攻克了一系列业界难题。 在2020年上半年我们完成了一块核心业务容器化之后,突然发现我们运维成本居然增加了。...但容器化后,我们在晚高峰下需要不断地对一些资源负载比较高去进行封锁,然后把上面的一些比较重 Pod 进行驱逐,为什么会这样呢?...当研发在波谷时候进行一次发布,这时候就会触发容器一次重新调度,比如像我这个服务有几十个 Pod ,可能会有十多个 pod 调度到一台机器,因为这时候机器使用率很低,就是服务怎么调度其实都可以,

82830

集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践

与此同时,我们观察到:部分在线集群天均利用率水位维持在较低水平。...造成这一现象主要原因有以下几点: 在线服务资源使用量随着终端用户使用习惯呈现稳定潮汐现象,夜间 CPU 利用率极低,从而导致整个集群均值 CPU 利用率降低。...基于这种情况,平台通过弹性能力(HPA),在凌晨业务低峰期按比例对在线业务进行缩容,释放出整机资源,并将转码、训练等离线 Pod 在该时段运行起来,实现资源优化,起到利用率“填谷”效果。...由于同步过程不适合加锁,可能会出现资源被过量分配问题: 具体解决措施是在单机侧增加了仲裁逻辑。...资源效能进一步提升:面向混合云架构,我们将推进更大规模资源合池,推动 Quota 化资源交付。通过采用更先进弹性、混部、超卖等技术手段,进一步提升集群资源利用率,实现资源成本大幅度下降。

47710

集群 CPU 利用率均值一年提升 25%,小红书混部技术优解方案

与此同时,我们观察到:部分在线集群天均利用率水位维持在较低水平。...造成这一现象主要原因有以下几点: 在线服务资源使用量随着终端用户使用习惯呈现稳定潮汐现象,夜间 CPU 利用率极低,从而导致整个集群均值 CPU 利用率降低。...,核分配完全由内核控制,CPU 资源并非百分之百能够满足需求 场景:适用于 Batch 类离线服务,部分对延迟无要求计算服务 2.2.3 离线驱逐 在极端场景下,如整机内存使用率较高、有触发 OOM...由于同步过程不适合加锁,可能会出现资源被过量分配问题: 具体解决措施是在单机侧增加了仲裁逻辑。...资源效能进一步提升:面向混合云架构,我们将推进更大规模资源合池,推动 Quota 化资源交付。通过采用更先进弹性、混部、超卖等技术手段,进一步提升集群资源利用率,实现资源成本大幅度下降。

48210

Kubernetes集群多租户资源管理

2.Pod资源使用规范 我们知道,一个pod所使用CPU与Memory是一个动态量,确切地说,是一个范围,跟它负载密切相关:负载增加时,CPU和Memory使用量也会增加。...因此最准确说法是,某个进程CPU使用量为0.1个CPU~1个CPU,内存占用则为500MB~1GB。...在这种情况下,该Pod资源使用量有一个弹性范围,我们不用绞尽脑汁去思考这两个Limit合理值,但问题也来了,考虑下面的例子: Pod AMemory Request被设置为1GB,Node A当时空闲...运行3天后,Pod A访问请求大增,内存需要增加到1.5GB,此时Node A剩余内存只有200MB,由于PodA新增内存已经超出系统资源,所以在这种情况下,Pod A就会被Kubernetes杀掉...没有设置LimitPod,或者只设置了CPU Limit或者Memory Limit两者之一Pod,表面看都是很有弹性,但实际上,相对于4个参数都被设置Pod,是处于一种相对不稳定状态,它们与

62920

干货 | 数万实例数百TB数据量,携程Redis治理演进之路

Redis上下线和扩容从手工时代来到了自动化部署和自动扩容时期,Redis运维管理难度,随着实例大规模增加增加。...但在当时容器规模只有几千个,而目前已经增加了十倍多,还在不断增长,对于如此大规模实例数,治理策略调整势在必行。...对于上面第一第二点两个目标,我们设计了支持2种模式局部最优平衡算法: 1)预留制 由于Redis实例在使用过程中内存使用量不断增长,且增长趋势无序无规律,使得某些宿主机上内存用率很低(如图2所示宿主机可用率约为...图 4 内存用率无可分配pod宿主机与内存用率低有可分配pod宿主机 用户可配置二次调度参数,如指定可漂移实例Max/Min UsedMemory,Rebalance次数,最后生成一个...我们将Redis容器跑在了Cilium上,漂移过程中Redis换宿主机后IP会变,这样会涉及多个系统数据变更,如哨兵记录了老IP,当前实例变成新IP,这时候正好分配一个老IP给了新实例,导致复制关系错乱

1K20

2022 技术趋势报告:C++ 重新“受宠”| “data”、“Python”、“Java”上榜热搜词

因此,在该调查报告中,我们也看到关于安全领域特定主题方面的内容有了大幅增加。其中,勒索软件相关内容使用率几乎翻了 3 倍(增长 270%)。...同时,其他内容搜索量也有增加:数据显示,网络安全话题增长了 15%,而标题中带有“安全”或“网络安全”字样物品浏览量分别增加了 17% 和 24%。...另外,云原生应用搜索使用量同比增长为 54%,约占架构或 Kubernetes 1/8;容器内容(containers )使用量出现了 137% 显著增长,而 Docker 增长率较低,但使用率较高...编程语言:C++、Go、Rust 热度持续增长 该数据显示,在编程语言方面,过去一年里 C++ 搜索使用量显著增长了 13%,使用率大约是 C 语言两倍(使用 C 内容下降了 3%)。...数据显示,Go 语言内容使用率在去年上升了 23%,Rust 使用率上升了 31%(预计,Rust 语言还会继续增长),该语言反映了关于内存管理和并发性全新思维方式。

53820
领券