前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用 NVIDIA Fleet Command 在边缘部署和管理应用程序

使用 NVIDIA Fleet Command 在边缘部署和管理应用程序

作者头像
GPUS Lady
发布2022-02-10 11:51:24
7770
发布2022-02-10 11:51:24
举报
文章被收录于专栏:GPUS开发者GPUS开发者

如果你的边缘系统分散在各地,比如有十几家工厂,它缺乏它认为理所当然的数据中心物理安全基础设施,那么边缘服务器需要设计为自我安全且易于更新、管理并在保证零停机时间的情况下从远处进行部署和维护,这是一个挑战,此外,随着人工智能在计算应用程序中的普及,对系统各个级别的高级安全性的需求也是如此,安全性需要融入到人工智能过程中,保护人工智能系统、它们的数据和通信对于用户安全和隐私以及保护企业对这些人工智能解决方案的投资至关重要。当然,边缘节点在 IT 基础架构中添加了另一层,因此管理员必须以与本地或云解决方案相同的动态和自动化方式管理边缘级别的工作负载,所以这就是为什么 nvidia 将云原生的重点放在我们的边缘解决方案上,所以这些是希望部署边缘解决方案,并希望为其 AI 解决方案构建部署计划的组织的要求。

nvidia 正在使用 egx 堆栈以及我们的一个工具来解决这些问题,就是NVIDIA fleet command 。

因此,nvidia fleet command 是一个混合云平台,用于管理和扩展跨越数十或多达数百万台服务器或边缘设备的 AI 部署,fleet command 允许 IT 部门安全地远程管理大规模部署的系统,因此不需要花费数周时间,在几分钟内就可以规划和执行部署计划。管理员可以将人工智能带入零售商店、仓库、医院、城市街道网络等,管理员可以无线(Over-The- Air,OTA)添加或删除,以及更新应用程序,您可以从单个控制板远距离监控设备的健康状况。所以 nvidia fleet command 是一个在云中运行的集中式控制面板,通过该云浏览器,您可以配置设备,如我之前提到的边缘egx 服务器,您可以通过一键配置这些设备,然后一旦fleet command与那些在边缘配置的设备配对,在几分钟内,跨整个服务器基础架构,安全地部署、管理和扩展人工智能变得非常容易。

如右上图介绍什么是fleet command,及其组成部分。

因此,fleet command将应用程序托管在公共或私有注册表中,这些应用程序存在于安全容器中,因此您可以在云中看到左侧发生的情况,我们有私有注册表,您也可以在云端进行应用程序生命周期管理。因此,使用fleet command,用户可以创建位置和系统,然后使用一键配置,您在舰队命令中创建的这些系统与存在于边缘位置的 egx 服务器进行配对。

所以现在,在你的fleet command控制台中,您拥有已设置的系统,并且这些系统与整个边缘基础设施中存在的物理系统配对,因此您设置的系统可能有数十个或数百个,然后要创建部署,您选择一个位置,有与之关联的系统,然后您选择一个应用程序,然后只需单击几下即可将它们放在一起,然后将您的人工智能应用程序部署到您设置的那些位置和系统中。所以它非常简单,只需点击几下,您就可以在整个基础架构中扩展人工智能并管理您的所有人工智能解决方案.

我想谈谈三个主要好处,以深入了解你们的人工智能部署基础设施中fleet command的价值。

所以第一个当然是轻松管理,所以在边缘管理人工智能非常耗时且昂贵,需要安装和维护数十甚至数百万台设备,使用一种工具,这有助于他们大大降低与边缘基础设施相关的成本。当然,fleet command集中管理所有这些fleet和设备,因此简化的配置、详细的监控仪表板、广泛的自动化流程...所有这些都允许它让任何技能水平的系统管理员在边缘管理AI部署和维护。这与手动部署或基于 cli 的工具不同,后者通常需要相当高水平的技术人员才能成功完成,fleet command 通过允许用户轻松选择应该部署人工智能应用程序的位置来协调所有部署,然后从中央位置进行人工智能部署,允许无线更新(OTA)、远程调试和系统监控以及其他功能,这使系统管理员的生活变得更加轻松,访问远程管理功能意味着维护和保养更容易并降低成本,从而使AI在远离总部资源的地点也易于使用。

以前,您考虑在边缘部署人工智能的正常流程是,如果您有十几个设施,通常您需要向每个设施派遣一名 IT 管理员来部署人工智能并更新软件,如果系统出现故障他们需要去修理它,这当然需要时间,如果一个位置特别偏远,可能会花费大量时间和金钱,以至于您决定不将人工智能部署到该位置。但是,如果您在云中进行了所有管理,那么部署人工智能和维护它会变得容易得多,因此您可以将 AI 部署到您的所有位置,因为您真的不需要担心在云中管理它们。

然后当然安全是这里的另一个主要命题,所以当然与手动或基于 cli 的工具不同,nvidia fleet command 实际上内置了很多安全功能,并且这种安全性是从云到端到端的,端到端边缘,这确保了知识产权、财产和应用程序以及传感器数据始终受到保护,并且fleet command 从 nvidia ngc 软件中心部署应用程序,并且在加载之前扫描 ngc 中托管的应用程序以查找漏洞和恶意软件,此外用户可以签署容器,以确保只有经过身份验证的软件在边缘运行。

在边缘,所有过程数据都在静止状态下进行加密,人工智能运行时也受到保护,不受安全引导的干扰,因此,由于系统是在本地处理传感器传送的数据,所以企业可以保持对敏感数据存储位置的控制,他们能够维持整个过程。此外,对于许多设备和许多位置,企业需要弹性软件来简化管理,而没有弹性,企业面临着难以置信的挑战,即在应用程序出现故障时必须手动修复远程系统,这会导致应用程序长时间停机。fleet command具有弹性软件堆栈,并允许所有系统在应用程序中断时恢复,但弹性不仅意味着可以重新启动应用程序的基础架构,还意味着工作负载可以迁移以减少应用程序停机时间。如果系统在一个位置中断,fleet command可以将该系统的工作负载迁移到同一网络上的另一个系统,确保实时智能检测任务永不丢失,因此管理人工智能在边缘的能力取决于您对它的控制,如果您能够部署软件并进行软件更新,那么您也可以放心地知道您的软件是有弹性的,因此如果它发生故障下来,它可以重新启动并迁移工作负载,这样您就不必担心您的分析数据会丢失,因为安全性对于 nvidia 的每个产品都非常重要,这是我们公司的一个重要支柱,我们从美国情报界和其他领先的安全组织聘请了最优秀的专家,始终确保我们的客户和合作伙伴的知识产权受到保护。

fleet command安全有五种方式发生,如上图所示。

内容安全意味着在英伟达云托管的应用程序,这是NGC在应用程序加载之前扫描恶意软件和漏洞。正如我之前提到的,您可以对自己拥有的容器进行签名,因此您始终知道,每个容器在部署到边缘之前都是安全的,为了保护您的数据流,所有数据在传输和静止时都是加密的,此外,安全和有度量的引导可以防止系统篡改以实现数据驻留,由于系统存在于物理位置,且传感器数据在本地处理,因此您始终可以控制数据的存在位置,因此可以控制自己的风险态势,而不是依赖合作伙伴,对于某些企业来说,这是非常关键的。隔离是指将您在ngc和边缘设备中的知识产权与所有其他用户隔离,确保除您和您的团队外,没有人可以访问您的ip,因此如果您将应用程序加载到nvidia ngc并部署它。只有你才能始终访问这些信息,当然,操作简单,fleet command允许你标准化部署配置和更新应用程序,这使你很容易识别和修复系统中发现的异常和漏洞。

这就是我们的安全态势,希望你们能很好地理解什么是fleet command,它意味着什么,以及它提供的价值。

这是 kion 集团的一个很酷的用例,DEMATIC是 kion 集团的子公司,它管理仓库和自动化系统,在全球有超过 6000 家工厂,而且 Kion DEMATIC试图解决的是,他们希望使用人工智能来自动化其设施中物料处理所涉及的每一个步骤, 这样做将提高仓库吞吐量和效率。这是决定设施成功与否的两个主要变量,即它们的效率以及它们的吞吐量,因此DEMATIC 使用 nvidia metropolis 应用程序框架构建了一个应用程序来帮助自动化他们的系统,他们选择了使用 Metropolis 应用程序框架,该应用程序已部署在一个新工厂中,用于帮助创建更高效的包装系统。因此,fleet command发挥作用的是有助于管理此应用程序和其他类似的应用程序,以帮助希望采用人工智能的组织加快进程。

在这个用例中,西北医学是伊利诺伊州领先的医疗机构,Whiteboard Coordinator是医疗行业的深度学习技术提供商,因此西北医院正在寻找在疫情期间,能够自动化护理和减少患者接触的方法。为了实现这一点,他们与Whiteboard Coordinator合作,以实现一个由nvidia clara guardian提供支持的人工智能虚拟患者援助语音应用程序,因此nvidia claire guardian是这里的应用框架,这个语音操作的虚拟病人助手通过回答问题来帮助病人,它提供关于他们治疗的信息,就像护士或其他医护人员一样,这让医院工作人员可以专注于其他病人治疗活动,因此,西北大学的这个应用程序是使用nvidia fleet command在该设施部署和管理的,几乎没有患者接触,管理员能够成功运行该应用程序,并在手术前回答患者问题。

关于NVIDIA Fleet Command信息可以访问以上链接。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档