首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

使用Elastic Observability和OpenAI来深入了解Kubernetes的错误日志

正如我们在之前的博客中展示的那样,Elastic® 提供了一种从 Kubernetes 集群和运行在其上的应用程序中采集和管理遥测数据的方式。Elastic 提供了开箱即用的仪表板来帮助跟踪指标、提供日志管理和分析、APM (也支持原生 OpenTelemetry),以及使用 AIOps 功能和机器学习(ML)分析所有内容的能力。虽然您可以在 Elastic 中使用预置的 ML 模型、开箱即用的 AIOps 功能或自己的 ML 模型来主动发现和定位异常,但仍然需要深入挖掘问题的根本原因。Elastic 的解决方案有效降低了运维的操作工作并提升了高效运营,但用户仍然需要一种方式来调查和理解从特定错误消息的含义到问题的根本原因的所有内容。作为一个操作用户,如果您以前没有遇到过特定的错误或它是一些运行脚本的一部分,您可能会去google并开始搜索信息。

014

SkyPilot:一键在任意云上运行 LLMs

在云计算日益普及的今天,如何有效、经济且无缝地在各种云平台上运行大语言模型(LLMs)、AI 和批处理作业成为了迫切的需求。SkyPilot 项目应运而生,旨在解决这一核心问题。它不仅抽象并简化了云基础设施操作,为用户提供了在任何云平台上轻松部署和扩展作业的能力,还通过自动获取多个云平台 GPU 的实时价格并进行实时比价,帮助用户选择最优的云平台来运行自己的 Job。这样做极大地降低了成本,提供了高度的 GPU 可用性,让云基础设施管理变得轻而易举。这样做极大的满足了市场对高效、低成本云资源利用的需求。通过 SkyPilot,企业和开发者能够最大化地利用 GPU,进一步推动了人工智能和大数据处理技术的发展,为云计算市场带来了新的可能。

01

《Scikit-Learn、Keras与TensorFlow机器学习实用指南(第二版)》第19章 规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后,要做什么呢?当然是部署生产了。这只要用模型运行一批数据就成,可能需要写一个脚本让模型每夜都跑着。但是,现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据,这种情况需要将模型包装成网络服务:这样的话,任何组件都可以通过REST API询问模型。随着时间的推移,你需要用新数据重新训练模型,更新生产版本。必须处理好模型版本,平稳地过渡到新版本,碰到问题的话需要回滚,也许要并行运行多个版本做AB测试。如果产品很成功,你的服务可能每秒会有大量查询,系统必须提升负载能力。提升负载能力的方法之一,是使用TF Serving,通过自己的硬件或通过云服务,比如Google Cloud API平台。TF Serving能高效服务化模型,优雅处理模型过渡,等等。如果使用云平台,还能获得其它功能,比如强大的监督工具。

02

通过Kyverno使用KMS、Cosign和工作负载身份验证容器镜像

随着软件供应链攻击的增加,保护我们的软件供应链变得更加重要。此外,在过去几年中,容器的采用也有所增加。有鉴于此,对容器镜像进行签名以帮助防止供应链攻击的需求日益增长。此外,我们今天使用的大多数容器,即使我们在生产环境中使用它们,也容易受到供应链攻击。在传统的 CI/CD 工作流中,我们构建镜像并将其推入注册中心。供应链安全的一个重要部分是我们构建的镜像的完整性,这意味着我们必须确保我们构建的镜像没有被篡改,这意味着保证我们从注册中心中提取的镜像与我们将要部署到生产系统中的镜像相同。证明镜像没有被篡改的最简单和最好的方法之一(多亏了 Sigstore)是在构建之后立即签名,并在允许它们部署到生产系统之前验证它。这就是 Cosign 和 Kyverno 发挥作用的地方。

02
领券