首页
学习
活动
专区
工具
TVP
发布

Loki

专栏作者
72
文章
102688
阅读量
15
订阅数
OpenAI 是怎么使用 Kubernetes 的?
最近无意间看到一篇两年前的文章《Scaling Kubernetes to 7,500 nodes》原文如下:https://openai.com/research/scaling-kubernetes-to-7500-nodes#unsolvedproblems。虽然多少有点倔坟,但好在里面的东西并不算太落后,至少从OpenAI团队之前的文章来看,也确实记录了整个团队在Kubernetes集群规模的技术成长与经验分享,非常的值得学习。正好最近我们 KubeGems PAI(机器学习平台)也遇到一些调度方面的问题,便再三阅读并简单做个笔记与大家分享读后感。
云原生小白
2023-08-28
2560
KubeGems教学系列 - 快速体验 Model X
Model X 是一个简单、高性能、 跨平台和可扩展的用于存储机器学习场景下的模型仓储服务。它参考了 OCI、Git Lfs 和 对象存储的设计思想和在 Kubernetes 中运行算法服务的场景,为用户提供了一个便捷的、可版本化的模型管理解决方案。更多关于 ModelX 设计可参考文章《ModelX一款开源的机器学习模型管理仓库》 https://www.kubegems.io/blog/kubegems-modelx
云原生小白
2022-11-11
4320
K8S 生态周报| Prometheus 新版本内存用量大幅度优化!
我有一个托管在 Pipedream 上的 workflow , 该 workflow 订阅了我博客的 RSS, 当有新文章发布后,会调用 Bitly 生成短网址,然后自动发推。正常情况下,它会保持 RSS 的处理状态,仅处理增量数据。
云原生小白
2022-11-11
5070
BGP 模式下 Calico 与 MetalLB 如何结合
最近我司业务扩展在机房新开了一个区域,折腾了一段时间的 Calico BGP,为了能将整个过程梳理得更简单明了,我还是决定将这个过程记录下来。不管是对当下的总结还是未来重新审视方案都是值得的。大家都知道,云原生下的网络架构在 Kubernetes 里可以算是百花齐放,各有所长,这无形中也导致网络始终是横在广大 K8S 爱好者面前迈向高阶管理的几座大山之一。通常大家在公有云上使用厂家提供的 CNI 组件可能还感受不到其复杂,但一旦要在 IDC 自建集群时,就会面临 Kubernetes 网络架构选型的问题。Calico 作为目前 Kubernetes 上用途最广的 Kubernetes CNI 之一,自然也有很多追随者。而本篇便是在自建机房内 BGP 组网下的一次总结。
云原生小白
2022-06-06
1.5K0
KubeGems 与 Logging Operator 的美妙火花
KubeGems Logging 服务主要面系统内部以及平台内租户提供日志采集、解析、传输和存储等相关的能力。依靠 Logging Operator 对日志的配置和路由管理,实现平台的终端用户可以对应用运行期间的日志进行实时查询和分析。KubeGems 日志持久化采用 Grafana Loki 实现。
云原生小白
2022-04-13
1K0
Logging Operator - 优雅的云原生日志管理方案 (三)
Logging Operator是BanzaiCloud下开源的一个云原生场景下的日志采集方案。它在 2020 年 3 月的时候经过重构后的 v3 版本,底层凭借高效的 fluentbit 和插件丰富的 flunetd,Logging Operator几乎已经完美的适配了 kubernetes 模式下的日志采集场景,未来可期。去年偶然间发现Rancher 在 2.5 版本之后也采用了 Logging Operator 作为统一的日志解决方案,足以说明它正在被一些以 Kubernetes 为核心的管理平台接受,并集成至内部(也包括小白的 KubeGems)。
云原生小白
2022-01-11
8860
产品如何做Kubernetes一致性认证
Certified Kubernetes是CNCF基金会在2018年推出的Kubernetes一致性认证计划。它由CNCF基金会提供的一套诊断测试工具(Sonobuoy)并运行在Kubernetes中。各云厂商如果需要将自己产品纳入到Certified Kubernetes当中,就需要按照操作指导进行自身测试,并将测试结果上传给CNCF社区,当报告审核通过,交付一定的费用(CNCF Members免费)后,就会得到CNCF基金会给企业颁发一个Certified Kubernetes的认证。
云原生小白
2021-09-09
1.1K1
五分钟快速学习Ansible Operator
Operator Framework[1]是由CoreOS开发,后被RedHat收购的一个开源工具包,它可以有效的、自动化的和可扩展的方式管理 Kubernetes原生应用程序。该框架下包含Operator SDK,可协助开发人员利用自己的专业知识来引导和构建Operator,而无需了解 Kubernetes API复杂性。今天我们就学习它,用于创建一个基于Ansible的Operator应用(之前小白在《Loki Operator简明教程》中也简单聊到过),它可以利用现有 Ansible playbook和模块来部署和管理Kubernetes资源作为统一应用程序的生命周期,而无需编写任何Go代码。
云原生小白
2021-08-13
1.4K0
如何用K8S临时容器来调试pods
曾几何时,我们将自己的应用运行在Kubernetes上,每当出现容器异常崩溃时,我们往往都是一边重启容器,一边面对崩溃的容器无从下手。通常在业务研发自己build的镜像内包含了shell,我们还能通过在command中嵌入一个["sleep", "3600"]命令来阻塞容器内服务启动,不过也有时候会出现不知道从哪里冒出来一个distroless镜像,这时可能最先崩溃的就是运维了。那是一种运维这个职业自诞生以来,第一次感受到手足无措并脱离掌控的无助感。于是在k8s环境下无法debug容器的梗开始在坊间广为吐槽。
云原生小白
2021-07-20
2K0
优雅的在K8S中Debug容器和主机
曾几何时,我们将自己的应用运行在Kubernetes上,每当出现容器异常崩溃时,我们往往都是一边重启容器,一边面对崩溃的容器无从下手。通常在业务研发自己build的镜像内包含了shell,我们还能通过在command中嵌入一个["sleep", "3600"]命令来阻塞容器内服务启动,不过也有时候会出现不知道从哪里冒出来一个distroless镜像,这时可能最先崩溃的就是运维了。那是一种运维这个职业自诞生以来,第一次感受到手足无措并脱离掌控的无助感。于是在k8s环境下无法debug容器的梗开始在坊间广为吐槽。
云原生小白
2021-07-01
1.6K0
日志多租户架构下的Loki方案
当我们在看Loki的架构文档时,社区都会宣称Loki是一个可以支持多租户模式下运行的日志系统,但我们再想进一步了解时,它却含蓄的表示Loki开启多租户只需要满足两个条件:
云原生小白
2021-05-13
1.1K0
推荐几个krew的效率插件
Krew是kubectl插件的软件包管理器,简单来说它就像apt、dnf或者brew一样,通过krew你可以方便的管理机器上kubectl的插件。小白在这里根据日常工作给大家推荐一个效率的krew插件,带有一定的主观性,大家自行选择。
云原生小白
2021-05-13
7840
活久见,Pod日志也能做探针?
最近遇到一个有趣的场景,当业务方有一个只运行异步任务的容器,这意味着它逻辑简单,即从上游服务中获取内容进行数据处理,但应用本身不提供任何方式判断当前服务状态。当服务运行出现阻塞时,我们该如何在Kubernetes中来实现探针管理呢?很多同学都使用过存活探针、就绪探针和启动探针,不过它们有一个共同的属性就是需要应用本身提供一个Http/TCP接口或一个Command来评估服务当前是否健康。在不具备上述条件的情况下,我们就只能通过捕获容器的控制台日志输出来判断容器运行是否健康了
云原生小白
2021-05-13
5150
如何用Loki来分析Kubernetes事件
在Kubernetes API的众多对象中,Events算是最容易被我们忽视的类型之一。与其他对象相比,Event的活动量很大,不太可能长时间存储在etcd中,默认情况下,Event留存时间也只有1小时。当我们使用kubectl describe获取一个对象时,可能因时间超限而无法获取它的历史事件,这对集群的使用者非常的不友好。除了能查看集群事件外,我们可能还有类似追踪一些特定的Warning事件(如Pod生命周期、副本集或worker节点状态)来进行相关告警的需求。那么在开启本期话题之前,我们先来理解下Kubernetes Events的结构,下述是官访问给出的几个重要字段解释
云原生小白
2021-05-13
2.2K0
辞旧迎新,新手使用Containerd时的几点须知
相信大家在2020年岁末都被Kubernetes即将抛弃Docker的消息刷屏了。事实上作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使用,只是大部分时候我们因熟悉Docker,在部署集群时采用了默认的dockershim。不过社区也说了,在1.20之后的版本的kubelet会放弃对dockershim部分的支持。
云原生小白
2021-05-13
8180
Loki最佳实践(译)
使用静态标签可以在日志时的开销更小。通常日志在发送到Loki之前,在注入label时,常见的推荐静态标签包含:
云原生小白
2021-05-13
1.5K0
云原生实践之Monitoring(一)
之前小白有讲到线上服务的可观察性在当下无论是运维还是研发的同学都是必须要掌握和了解的特性。对于当前服务可观察所要承担的功能,各大公司或社区也已基本形成共识,其主要也是围绕三个方向来提出要求:
云原生小白
2021-05-13
4630
日志多租户架构下的Loki方案
当我们在看Loki的架构文档时,社区都会宣称Loki是一个可以支持多租户模式下运行的日志系统,但我们再想进一步了解时,它却含蓄的表示Loki开启多租户只需要满足两个条件:
云原生小白
2021-05-07
1.8K0
Logging Operator - 优雅的云原生日志管理方案 (一)
Logging Operator是BanzaiCloud下开源的一个云原生场景下的日志采集方案。之前小白转载过崔大佬介绍的一篇文章,不过由于之前一直认为在单个k8s集群下同时管理Fluent bit和Fluentd两个服务在架构上比较臃肿,便留下了一个不适用的初步印象。后来小白在一个在多租户场景下对k8s集群的日志管理做方案时,发现将日志配置统一管理的传统方式灵活性非常的弱。通常操作者会站在一个全局的角度,尽量的让日志的配置做成模版来适配业务,久而久之模版就变得非常庞大且臃肿,对后续维护和接任者都带来了不小挑战。
云原生小白
2021-04-09
1.5K1
活久见,Pod日志也能做探针?
最近遇到一个有趣的场景,当业务方有一个只运行异步任务的容器,这意味着它逻辑简单,即从上游服务中获取内容进行数据处理,但应用本身不提供任何方式判断当前服务状态。当服务运行出现阻塞时,我们该如何在Kubernetes中来实现探针管理呢?很多同学都使用过存活探针、就绪探针和启动探针,不过它们有一个共同的属性就是需要应用本身提供一个Http/TCP接口或一个Command来评估服务当前是否健康。在不具备上述条件的情况下,我们就只能通过捕获容器的控制台日志输出来判断容器运行是否健康了
云原生小白
2021-03-11
6290
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档