首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

4 个月节省千万成本的机器学习混部实践

当前,各大公司都存在着线下集群利用率不高的问题,且在尝试进行多业务类型的混合部署后,还可能会遇到各种稳定性和业务质量方面的挑战。因此,贝联珠贯在大数据领域针对万台规模的集群展开了研究,并成功落地了一种基于增强型 RunC 的新方案,在第一阶段的 4 个月里,成功地帮助客户提升了资源利用率,年度降本超过千万人民币,同时业务使用体验并未受到影响。在今年 9 月份的 QCon 全球软件开发大会(北京站),贝联珠贯 (www.lccomputing.com) 合伙人王元良老师以《增强型 RunC 的最佳实践:克服离线高压力混部场景的关键挑战》为题,分享了实际落地经验。本文由贝联珠贯公众号(ID:Lccomputing)整理节选自此次演讲。 完整幻灯片下载地址: https://qcon.infoq.cn/202309/beijing/presentation/5440

01

使用 Prometheus 记录规则优化 PromQL 语句

Prometheus 作为现在最火的云原生监控工具,它的优秀表现是毋庸置疑的。但是在我们使用过程中,随着时间的推移,存储在 Prometheus 中的监控指标数据越来越多,查询的频率也在不断的增加,当我们用 Grafana 添加更多的 Dashboard 的时候,可能慢慢地会体验到 Grafana 已经无法按时渲染图表,并且偶尔还会出现超时的情况,特别是当我们在长时间汇总大量的指标数据的时候,Prometheus 查询超时的情况可能更多了,这时就需要一种能够类似于后台批处理的机制在后台完成这些复杂运算的计算,对于使用者而言只需要查询这些运算结果即可。Prometheus 提供一种记录规则(Recording Rule) 来支持这种后台计算的方式,可以实现对复杂查询的 PromQL 语句的性能优化,提高查询效率。

04
领券