首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从脆弱到完美:Kubernetes自我修复实践

图 2:我们 Kubernetes 平台上当前处于活动状态的自我修复自动化列表。...但是,AKS 上的 Spot 节点缺乏任何 SLA,这可能导致潜在的突然抢占。我们经历了一次事件,其中大量 Spot 节点抢占导致多个有状态工作负载失败,从而导致级联应用程序故障并导致停机。...StatefulSet Pod API 服务器中留下“幻影”Pod 对象(其中 .status.phase: Unknown),这对我们的有状态工作负载来说是不可接受的行为。...解决节点上缺少 node-problem-detector AKS 运行 node-problem-detector (NPD) 以监视 节点运行状况 并标记在故障期间要移除的节点。...工作负载故障调查期间,我们注意到一个节点只有 4 个状态条件,而不是通常的 14 个(10 个来自 NPD,4 个来自 kubelet)。这让我们发现 NPD 未在该节点上运行。

8010

简介

简介        上一篇文章讲解了如何使用Azure DevOps持续部署应用到Azure Kubernetes上。但是部署是否成功?会不会遇到什么问题?项目运行中是否会出现问题?...Aks_Core部署流程        讲遇到的问题之前我们可以先看看如何在AKS环境上部署Net Core应用资源。...查看Pod描述和日志        上面我们讲了怎么连接到Azure Kubernetes服务并且查询Pods信息,下面我们看下怎么查看Pod更具体的信息来分析Pod状态。       ...应用部署的时候,特别是最开始的时候,特别容易碰到部署不成功的情况。...一般这时候就需要看看是否需要增加配置,同时也需要检查应用程序,再看看具体是CPU还是内存了,是否有代码造成了内存泄漏。优化长时间处理的代码。

1K20
您找到你想要的搜索结果了吗?
是的
没有找到

容器管理的8个顶级解决方案

2.Azure Kubernetes服务(AKS) Azure Kubernetes Service(AKS)提供了一个功能强大的托管工具,用于使用和编排容器,以及动态扩展基础设施和应用程序。...Docker企业版(DEE)是Docker公司的商业产品,它允许企业联合部署本地、云计算环境和托管Kubernetes中的应用程序。...可以本地部署、谷歌云平台以及支持Kubernetes的所有其他环境中运行容器。谷歌拥有几秒钟内部署集群和无缝更新生产代码的能力。...该平台支持一系列功能,包括身份和访问管理、自动扩展、自动升级、状态应用程序支持、Docker映像支持、工作负载可迁移性以及各种安全和合规性功能。...Kubernetes建立定义构建块的模型之上,并使用它们来管理与软件开发相关的活动。它已被整合到众多云平台中,并且可以与各种容器工具一起使用,其中包括Docker。

2.4K40

Kubernetes安全加固的几点建议

向 Kubernetes转变的这股潮流,很大程度上简化了容器化应用程序部署、扩展和管理,并实现了自动化,为传统的单体式系统提供了胜于传统管理协议的众多优势。...准则如下: GKE加固指南 EKS安全最佳实践指南 AKS集群安全 至于自我管理的Kubernetes集群(比如kube-adm或kops),kube-bench可用于测试集群是否符合CIS Kubernetes...安全上下文中,Kubernetes允许配置容器是否可以以特权或root身份来运行,或者将权限升级到root。用户还可以限制hostPID、hostIPC、hostNetwork和hostPaths。...节点层面定义RuntimeClass,并在pod定义部分指定它。...最后,将Kubernetes API审计日志与现有日志聚合和警报工具整合起来,以监控集群中的所有活动。这包括API请求历史记录、性能指标、部署、资源消耗、操作系统调用和网络流量。

91430

Dapr加速DedalowAWS和Azure上的开发

由于容器化和 Helm chart,你可以 Kubernetes 集群上部署 Dedalow,现在,该服务亚马逊 Elastic Kubernetes Service(EKS)和 Azure Kubernetes...Dedalow 不断发展,需要集成三个新功能: 异步消息传递(Asynchronous messaging),允许服务向其他服务发送有关异步请求状态的信息;例如,关于流水线状态或执行状态的信息。...部署应用程序的群集类型(开发/生产)。 然后我们开始评估Dapr[4](Distributed Application Runtime,分布式应用运行时)。...下图显示了 Dedalow 与 Dapr 的集成: Dapr Dedalow 的生产环境使用,AWS 中的 EKS 和 Azure 中的 AKS。...目前,并不是所有 Dapr 使用的组件都处于稳定状态。然而,使用它们的好处大大超过了潜在的缺点,到目前为止,我们还没有看到任何问题。

78830

如何在 Kubernetes 上部署高可用应用程序

某些情况下,一个 Pod 可以位于三个副本中,从而提供更高级别的可用性。部署和有状态集是可以从此配置中受益的资源。默认情况下,守护程序集部署集群上可用的节点数量上。...部署策略 部署期间应用的策略或技术决定了 Pod 部署期间是否仍然可用,或者是否会完全关闭并恢复。我们的目标是确保用户不会注意到任何事情,并且每个新的更改都会顺利、无缝地发生。...这三个是用来验证的;如果 Pod/容器已准备好接收流量(就绪),如果 Pod/容器仍在运行且尚未进入睡眠状态活动),以及 Pod/容器是否已成功启动(启动)。...如果请求成功,则启动和准备状态将停止,而活性将继续运行以保持 Pod/容器处于活动状态。如果由于任何原因探测失败,它会将容器标记为不健康,从而停止部署过程。...这可以让您的用户使用容器/pod 内运行的应用程序时获得无缝体验。这可确保您在部署和更改应用程序期间无需关闭或查找维护时段。

20510

云原生之旅的最佳 Kubernetes 工具

AKS Kubernetes Azure Kubernetes Service(AKS)通过将运营负担转移到 Azure,简化了 Azure 中部署托管的 Kubernetes 集群。...这可以帮助您快速识别和解决问题,它们导致中断或其他中断之前。 警报和监控工具对于 Kubernetes 尤其重要,因为它是一个具有许多活动部件的复杂平台。...这有助于确保代码始终处于工作状态,并且可以尽早发现任何错误。 持续交付(CD)将 CI 推进一步,通过自动化将代码部署到生产环境的过程。这有助于缩短发布新功能的时间,并减少人为错误的风险。...Azure Pipelines 可用于自动构建、测试和部署 Kubernetes 应用程序到 Azure Kubernetes Service (AKS)。...例如,您可以使用 OPA 授权用户访问特定的 Kubernetes API 或在 Kubernetes 上部署特定的工作负载。 审计:OPA 可用于审计您的应用程序活动

12010

10个必须了解的Kubernetes特性

Kubernetes是一个开源平台,它支持容器和容器化应用程序的自动化部署、扩展和管理。它可以本地或云平台中使用。...其中有许多预配置的图表及其相关性,因此Helm Charts可以使用户能够快速轻松地部署应用程序。 3.自定义控制器 控制器是调节系统或资源状态的循环。...Pod中断预算(PDB) Pod中断预算(PDB)是一项功能,使用户可以限制自动停止集群中的Pod数量。它有助于确保维护、自动缩减、升级等任务期间保持最少数量的Pod处于活动状态。...用户可以定义就绪性、活动性和启动探测,如下所示: •准备就绪—确定容器是否可以接收请求。如果失败,则从将流量定向到Pod的所有端点中删除Pod IP地址。 •活动性—确定是否需要重新启动容器。...•启动—确定容器中的应用程序是否已启动。失败的情况下,容器将被终止并重新启动。 用户可以使用超时、重试次数、最小成功或失败阈值以及延迟的运行时间自定义探测。 10.

74910

Dapr 长程测试和混沌测试

部署真正的应用程序之前,可以通过受控的混沌环境中构建,部署和操作此类应用程序来实现这种信心。 测试应用程序 所测试应用程序将模拟在社交网络中发布的消息,以便通过情绪分析进行评分。...状态键中传递的情绪和状态值是前一个值(如果未找到,则为零),增量为 1。 Hashtag 快照服务 此组件将执行 Dapr 的状态 API(而不是Actor 的上下文中)。...平台、日志和指标 长程测试应用将使用 AKS 群集进行部署,该群集 3 个可用区中的每个节点上至少有 1 个节点。...这是部分故障,这意味着 Kubernetes 恢复新 POD 时,服务应继续运行。...状态存储速度为每 29 分钟 1 分钟(tps 将在实现期间定义)。 每 21 分钟中断一次主题。 每 23 分钟有 1 分钟的主题缓慢。

1.1K20

Kubestriker:一款针对Kubernetes的快速安全审计工具

Kubestriker不依赖于特定平台运行,它可以多个平台上工作,比如说自托管的Kubernetes、Amazon EKS、Azure AKS和Google GKE等。...各种服务或开放端口的网络侦察阶段扫描; 如果启用了不安全的读写或只读服务,则执行自动扫描; 执行验证扫描和未验证扫描; 扫描群集中的各种IAM错误配置; 扫描各种包含错误配置的容器; 扫描各种包含错误配置的Pod...安装该工具或克隆并运行该应用程序之前,我们需要在本地安装好Git、Python 3和pip。...我们建议广大研究人员虚拟环境中安装和使用该工具。 接下来,我们可以命令行工具中运行下列命令。...支持的扫描类型 认证扫描 认证扫描要求用户至少具有只读权限,并在扫描期间提供令牌。

1.6K40

为什么Kubernetes对企业的业务至关重要

实际上,用户可以运行的服务器应用程序实例数是相同硬件上的虚拟化的四到十倍。 容器还适合进行持续集成(CI)/持续部署/(CD)。...Kubernetes运行在Linux之上,可与Pod、一个或多个容器的组一起部署到单个节点,物理服务器或虚拟机。...具体来说,Kubernetes使用户能够完成以下任务: •控制和自动化应用程序部署和更新。使用它,可以描述已部署容器的所需状态。...然后,Kubernetes以受控的速率将容器化应用程序的实际状态更改为所需状态。例如,用户可以创建新容器、删除现有容器或更新容器的软件内容。 •自动化容器配置。...Kubernetes自动维护活动容器。这些称为副本集。当Pod不能随身带走其所有容器化应用程序时,副本集具有所需的容器,该容器已经启动并可以运行以接管负载。

54020

如何在Kubernetes上使用Istio Service Mesh设置Java微服务?

命令行中运行kubectl get nodes来查看它,并验证kubectl是否可以连接到您的集群。...运行,这些Pod将被部署到istio-system命名空间。...$ watch kubectl get pods -n istio-system Pod处于运行状态后,请退出监视循环并运行以下命令以获取Ingress网关服务的详细信息。...部署应用程序 一旦所有Pod处于运行状态,我们就可以浏览已部署应用程序 应用网关 store网关应用程序是我们微服务的入口点。通过运行echo store.jhipster....Istio文档中说: Istio服务网格中部署基于微服务的应用程序,可以整个应用程序的服务监视和跟踪、请求(版本)路由、弹性测试、安全性和策略实施等方面以一致的方式进行外部控制。

3.7K51

Kubernetes零宕机滚动更新

掉,当新部署Pod 启动并可以处理流量之后,才会去杀掉旧的 Pod。...使用过程中我们还可以指定 Kubernetes 更新期间如何处理多个副本的切换方式,比如我们有一个3副本的应用,更新的过程中是否应该立即创建这3个新的 Pod 并等待他们全部启动,或者杀掉一个之外的所有旧的...一旦新的 Pod 处于活动状态并准备就绪后,Kubernetes 就将会停止就的 Pod,从而将 Pod状态更新为 “Terminating”,然后从 Endpoints 对象中移除,并且发送一个...现在,当我们去查看滚动更新期间Pod 行为时,我们将看到正在终止的 Pod 处于 Terminating 状态,但是等待时间结束之前不会关闭的,如果我们使用 Fortio 重新测试下,则会看到零失败请求的理想行为...,但是为了在生产环境中运行我们的企业级应用,我们就必须了解 Kubernetes 是如何在后台运行的,以及我们的应用程序启动和关闭期间的行为。

56540

使用Cluster API管理数百个Kubernetes集群

City Storage Systems,我们的核心基础设施团队驾驭着管理 100 多个多租户 Kubernetes 集群的复杂性,每个集群每天托管数万个活动 Pod。...我们的整个软件堆栈 Kubernetes 上运行,从关键任务微服务到有状态数据库和可观测性解决方案。 这篇博文深入探讨了我们集群配置、生命周期管理和升级中实现完全自动化的历程。...CAPZ 对托管 Kubernetes 发行版 Azure Kubernetes Service (AKS) 的支持仍处于实验阶段,缺少我们用例所需的基本功能。...更新 Kubernetes 版本时,我们了解到 AKS 的就地节点池升级遇到不允许任何中断的应用程序(PodDisruptionBudget 设置)时往往会进入无限重试循环。...这种端到端自动化 Kubernetes 版本升级期间尤其强大。

8910

Kubernetes--玩转Pod滚动更新123

使用RollingUpdate策略时,还有两个选项可以让你微调更新过程: maxSurge:更新期间,允许创建超过期望状态定义的Pod数的最大值。...这意味着更新过程中,将满足以下条件: 最多有10个Pod(8个期望状态里指定的Pod和2个maxSurge允许超期创建的Pod更新过程中处于Ready状态。...最少有6个Pod(8个期望状态里指定的Pod和2个maxUnavailable允许不可访问的Pod)将始终处于Ready状态。...值得注意的一点是,考虑Deployment应在更新期间运行的Pod数量时,使用的是Deployment的更新版本中指定的副本数,而不是现有Deployment版本的期望状态中指定的副本数。...你要放慢部署速度,以减少对运行中的系统的影响。 对于Web应用程序,要求通过健康检查非常常见,这对于以最小的中断执行更新至关重要。

79110

如何配置微服务的健康检查? | 微服务系列第九篇

成功部署pod后,其活动探测将按照监视pod的运行状况的计划持续运行。 readiness probes. readiness probes.情况探测器确定容器是否已准备好为请求提供服务。...部署pod期间运行准备探针,以确定pod是否已完成部署。如果容量的准备就绪探测失败,则内置于OpenShift中的端点控制器可确保容器的IP地址从所有连接的服务的端点中删除。...设计运行状况检查时,重要的是要考虑它是用作活动探测还是准备探测。区别很重要,因为准备情况探测器运行状况检查必须指示容器是否已启动并正在运行并准备好为请求提供服务。...但是,活动探测器运行状况检查可以更简单,并且只需要指示容器的当前状态(向上或向下)。失败的活动探测表明需要立即重启pod。...等到最新的pod处于Running状态, ? 打开Web浏览器并导航到http://hola.apps.lab.example.com/health以测试运行状况检查: ? 说明探测点配置成功。

6.3K20

四件简单的事情,帮助改善部署过程

这些问题是,我们如何以最小的工作量和无中断的方式将代码部署到生产中。其次,我们如何知道服务是否正常运行,是处于运行状态还是处于关闭状态,如果我们配置正确,服务是否按预期运行呢?...应用程序运行状况检查 事件注释 Pod:尽量减少影响 蓝绿部署 应用程序运行状况检查 改善应用程序部署和管理的第一步是了解您的应用程序是否运行正常(正在运行并能够执行其预期任务),可以与下游服务进行对话并运行正确的版本...运行状况检查可用于蓝绿色部署期间验证安装的版本(commit)以及运行状况和连接状态。如果所有这些都通过,再加上其他综合测试,我们可以自动将该部署升级为生产。...从操作方面与Engineering一起工作,我们设计了多租户应用程序,以2个或更多应用程序Pod上运行客户。对我们而言,Pod是一组应用程序服务,其中有1到X个客户分配给特定Pod。...例如,您可能有用于核心应用程序Pod,有另一个用于分析或日志记录的PodAWS设置中,您可以按AWS区域拥有应用程序Pod,然后可以将客户分配给全球所有或几个区域中每个区域的Pod

67521
领券