Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >亚马逊正在重塑 MLOps

亚马逊正在重塑 MLOps

作者头像
深度学习与Python
发布于 2021-12-01 10:03:58
发布于 2021-12-01 10:03:58
1K0
举报

众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。

在所有 ML 产品的中心锚定一个 IDE 是一个明智的举动——只要你的相关服务正确地填补了关键运维层面的空白。如果一切顺利,亚马逊将有机会一劳永逸地重塑行业中机器学习的面貌。

甚至在 Sagemaker Studio 之前,AWS 就有了一些针对 MLOps 的服务。但是,Re:invent 2020 更进一步。他们发布了一系列产品 / 服务,填补了大多数已知的空白。

现在他们做得怎么样?他们是否为正确的受众构建了正确的工具?这个问题还需要几年时间才能得出答案。但是 AWS 肯定在这场竞赛中处于领先位置。现在,我们来研究一些关键的新服务,从中了解 AWS 在这场游戏中的优势所在。

1 AWS 的现有 MLOps 套件

亚马逊的现有产品完全基于 Sagemaker Studio。它为 ML 开发提供了业内首创的集成开发环境。下面介绍一些基于它实现的功能,这些功能让这个平台颇具吸引力:

  • Sagemaker Studio notebooks 提供无服务器的 Jupyter 笔记本代替你的本地笔记本。它还支持本地模式。但我强烈建议你围绕中心化笔记本设置构建开发环境。
  • Sagemaker Autopilot 将 AutoML 引入了 AWS,从而消除了 ML 流程中的所有繁重工作。
  • Sagemaker Experiments 允许你保存和跟踪你的训练实验。它还允许将一个模型与另一个模型对比,从而允许用户从实验结果表中手动选择最佳模型。
  • Sagemaker Model tuning 允许你利用云来自动执行超参数优化。
  • Multimodel endpoints 能大大降低推理成本。
  • Model monitor 能帮助你跟踪生产中的指标,从而轻松跟踪模型漂移。

2 2021 年有什么新变化?

尽管 AWS 是 ML 服务的运维提供商,但它仍然不能声称自己拥有用于所有机器学习目的的,打通的开发环境。MLOps 在几个领域存在重大差距。

没有连贯的 CI/CD 管道可以将它们连在一起。没有这样的管道,感觉用户在使用一系列不同的服务。机器学习过程各个阶段(数据准备、训练、验证、推理、监控)的相关产品也还不完整。

但这种情况正在改变。随着 re:invent 2020 和之前发布的一些新服务的出现,AWS 在今年已经填补了大部分空白,而其他多数提供商则远远落后。

下面是一些例子。

3 Data Wrangler:零代码数据准备

AWS Sagemaker Data Wrangler 提供了一种干净的 Jupyter 风格的 IDE,用于机器学习数据准备。它直接建立在 Sagemaker Studio 上,因此利用了 Studio 的所有强大功能(比如它的数据可视化)。

即使从技术上讲这是一种无代码工具,但 Data Wrangler 还是可以使用代码自定义的。你可以将 300 多种内置的自动转换应用于你的训练数据。你只需单击即可将工作流程导出到 Sagemaker 笔记本并构建就地模型。它还直接支持多个数据存储,包括 Snowflake、MongoDB 和 Databricks。

Data Wrangler 解决了亚马逊在 ML 数据准备方面的巨大空白。他们声称,以这种方式简化数据准备工作可以大大减少用户花费在数据准备上的时间。

4 Sagemaker DataBrew:同样的工具,但做法不同

Data Brew 也是无代码数据准备工具。但这两种工具面向的是两类不同的受众。Data Wrangler 专门针对 ML,而 Data Brew 专注在通用探索性数据分析(EDA)上。另外,Data Brew 是一个以 UI 为中心的工具。

EDA 通常是 ML 的先决条件,因此它们完全可以同时使用。Data Brew 的一键分析和精心设计的界面(适合不会编写代码的用户)让作业变得更加简单明了。

两种工具都可以用来完成特征工程。但是只有 Data Wrangler 支持将特征空间导出到 AWS Feature Store,所以更合适一些。

另一个空白,填补完毕。

5 AWS Feature Store:大规模特征工程

这是一个重要的发布,解决了关键的 特征工程缺失 的问题。许多机器学习实践在脱机(批处理)和在线(实时)特征工程之间存在差异。复杂的特征工程转换和在批处理期间构建的新特征很难很好地转换为推理 / 预测管道。

Feature Store 在这两点之间放置了一个专有的针对特征空间的存储库来解决这一问题。训练期间你在 Sagemaker Studio 中对原始数据所做的所有操作都可以导出到 Feature Store 中,并且可以保证在推理过程中可以正确地复制这些数据。

除了解决这个在线 - 离线问题外,它还支持特征可发现、共享和特征重用。它的设计还考虑了延迟——这是大规模场景中必须做的。

6 Sagemaker Pipelines:机器学习流程的 CI/CD

对我来说,这项服务是本年度最重要的运维发布。

尽管可扩展 ML 的重要先决条件是可靠的 CI/CD 流程 / 框架,但之前并没有好用的产品选项。大家要么用的是没那么理想的 MLOps 流程,要么建立了自己的 CI/CD 版本。

ML 的自制 CI/CD 框架存在的问题是它们无法推广,因此无法轻松开源。框架不可避免地要在代码中写入许多领域知识——既是为了缩短开发时间,也是为了与现有服务更好地集成。AWS 打算通过用于 ML 的通用 CI/CD 框架解决这一问题。

Sagemaker Pipelines 允许你创建、可视化和管理 ML 工作流。它使你能够创建单独的开发和生产环境并进行跟踪。环境允许你进行工件升级。它还带有一个模型注册表,可让你跟踪和选择正确的部署模型。

这一管道的一个不太明显的效果是,它还将其他所有用于 ML 的 Sagemaker 服务编织在一起。这为 AWS 带来了明显的优势,因为它可以实现真正的端到端 ML。

7 re:invent 的其他相关内容

Sagemaker Clarify:

跨 e2e Sagemaker 工作流的偏见检测。对于 B2C 公司而言这是一大优势。

SageMaker 调试器的改进

训练期间对资源利用情况进行监视和深度 profiling。特别是在深层神经网络上。

边缘机器学习

Sagemaker edge manager 基于 AWS Neo 之上,引入了边缘设备的模型管理。如果你在物联网行业,它会非常有用。

数据库 ML 功能

虽然不太算是 MLOps,但亚马逊新的数据库 ML 服务确实属于一个共同的主题——建立一个平稳的生产级 ML 流程,从而完全消除了对运维的需求。

  • Amazon Redshift ML:将 Sagemaker Autopilot 集成到 Amazon Redshift 中
  • Amazon Neptune ML:集成 Graph ml
  • Amazon Aurora ML:使用 SQL 查询将 ML 直接集成到 Postgres 中。
  • Amazon Athena ML:在 Athena 上提供经过预训练的模型。

8 竞争对手的情况?

Azure Machine Learning 和 Google Cloud AI platform 是排名靠前的云提供商中的两家头部 MlOps 提供商。两者都具有强大的管道和 CI/CD 功能。但是,Google AI 管道仍处于测试阶段,而其 AWS 竞品已经具备通用性。Azure Machine Learning Studio 感觉与 Sagemaker 非常相似,但并没有提供那么多服务。

其他提供商所用的模式并没有在中心包含集成的 IDE。Azure ML Studio 似乎在这方面做了尝试。但它在功能集方面局限很大。

与其他头部提供商相比,亚马逊确实投入了更多资源来提供更好的数据科学运维解决方案。这样是否可以让他们牢牢地把持最集成的 MLOps 套件的领先地位?我想是这样。亚马逊在开发云解决方案方面具有 3 到 5 年的领先优势(或更多?这里我找不到参考数据)。但是,现在预测谁将赢得 MLOps 竞赛还为时过早。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MLOps主要是数据工程
作者 | Kostas Pardalis 译者 | 张乐 审校 | 平川 MLOps 和数据工程之间有很大的重叠。 MLOps 主要是数据工程简而言之,MLOps 是一种新出现的工具类别,用于管理数据基础设施,主要面向 ML 用例,按照设想,这类用例会有独特的需求。 几年过去了,随着热度消退,MLOps 与数据工程的重叠显然比大多数人想象的要多。让我们看看这是为什么以及这对 MLOps 生态系统意味着什么。 介    绍 MLOps 是一个相对比较新的术语。在谷歌趋势上快速地搜索一下就可以
深度学习与Python
2023/04/10
3720
MLOps主要是数据工程
什么是MLOps?为什么要使用MLOps进行机器学习实践
随着数字化和计算能力的发展,机器学习(Machine Learning)技术在提高企业生产力方面所涌现的潜力越来越被大家所重视,然而很多机器学习的模型及应用在实际的生产环境并未达到预期,大量的ML项目被证明是失败的。从机器学习的发展历程来看,早期ML社区广泛关注的是ML模型的构建,确保模型能在预定义的测试数据集上取得较好的表现,但对于如何让模型从实验室走向用户的桌面,并未大家所关注。
人工智能日报
2023/06/22
1.5K0
DataOps、MLOps 和 AIOps,你要的是哪个Ops?
如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops?
深度学习与Python
2021/02/22
1.5K0
DataOps、MLOps 和 AIOps,你要的是哪个Ops?
AIGC独角兽官宣联手,支持千亿大模型的云实例发布,“云计算春晚”比世界杯还热闹
现在AI最火的方向是什么?那必须是AIGC(AI Generated Content,利用人工智能技术来生成内容)。
量子位
2022/12/09
8530
AIGC独角兽官宣联手,支持千亿大模型的云实例发布,“云计算春晚”比世界杯还热闹
re:Invent 2022 全回顾:看见云计算的力量,透视未来的云计算
作者 |刘燕 不知不觉, re:Invent 已经走过了 11 个年头。11 月 28 日,一年一度的 re:Invent 2022 全球大会开幕。 这是自 2019 年疫情以来的首次现场活动,因此也格外有意义。据悉,re:Invent 2022 吸引了约 50000 人现场参加,与疫情前的水平相当。而线上参加的人数超过 300000 人。 这场为期五天的云计算盛会又给大家带来了很多新的惊喜。 重要发布综述 在 re:Invent 2022 上,亚马逊云科技推出了广泛的新应用程序和产品增强功能,旨在优
深度学习与Python
2023/03/29
6880
re:Invent 2022 全回顾:看见云计算的力量,透视未来的云计算
推动机器学习创新和采用的六大主要趋势
来源:ScienceAI 本文约1600字,建议阅读9分钟 近年来,在多种因素的推动下,机器学习 (ML) 经历了快速转型和采用。 关于人工智能(AI)和 ML 为什么会不断发展,有很多观点。麦肯锡最近的一份报告将 ML 的工业化和应用 AI 确定为今年的主要趋势之一。在本周 AWS re:Invent 大会的一次会议上,亚马逊(AWS)人工智能和机器学习副总裁兼总经理 Bratin  概述了这家云巨头看到的六大关键趋势,这些趋势有助于推动 2022 年及以后的创新和采用。 AWS 声称其 AI/ML 服
数据派THU
2023/03/29
4300
推动机器学习创新和采用的六大主要趋势
MLOps:构建生产机器学习系统的最佳实践
你可能已经听过很多次了,但只有一小部分机器学习模型投入生产。部署和运行机器学习模型对于大多数已经开始将ML应用于用例的行业来说都是一个挑战。在这篇文章中,我将分享一些MLOps的最佳实践和技巧,它们将允许您在生产环境中使用您的ML模型并正确地操作它。在我们开始之前,让我们讨论一下我们可能都知道的典型的ML项目生命周期。
deephub
2021/04/16
1.3K0
超大规模云计算供应商重点投资人工智能云服务
亚马逊网络服务(AWS)、微软、谷歌、IBM等公司在过去一年中增加了数十种云计算人工智能工具,并且具有不同程度的复杂性。这些平台是否选用这些工作负载取决于人工智能和机器学习如何适应企业的业务战略。尽管
静一
2018/03/19
1.1K0
超大规模云计算供应商重点投资人工智能云服务
做个务实创新的少年,亚马逊云科技如何开启下一个十五年?
2006年,亚马逊发布全球第一个云计算服务Amazon S3,云计算的商业化时代由此拉开序幕,引发了IT基础设施向按需分配、按需付费的模式转变,直到发展成为今天全球都离不开的IT基础设施。
科技云报道
2022/04/16
4700
做个务实创新的少年,亚马逊云科技如何开启下一个十五年?
最新Claude2.1、Llama 2随便用!亚马逊把生成式AI开发门槛打下去了
例如Meta家的Llama 2 70B、Antropic家的Claude 2.1等等:
量子位
2023/12/01
1840
最新Claude2.1、Llama 2随便用!亚马逊把生成式AI开发门槛打下去了
MLOps 概论
MLOps(Machine Learning Operations)是一个关注于将机器学习模型开发和部署流程标准化、自动化以及持续集成与持续部署(CI/CD)的实践领域。MLOps旨在解决机器学习项目在开发、测试、部署和监控过程中的复杂性和挑战,以确保机器学习模型的生命周期管理能够高效、可靠和可扩展。
Surriento
2024/08/05
1240
是时候好好治理 AI 模型了!
作者 | 赵钰莹,郑思宇 如今,有越来越多的企业将机器学习引入到不同的流程中,对机器学习模型的期待也越来越高。与这种期待相反的是,我们对机器学习治理的关注度显然不够,还没有找到好的方式让整个流程运转地更加流畅、透明度更高,甚至连最佳实践可能的样子都十分模糊。在刚刚结束的 2022  re:Invent 大会上,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士针对 Amazon SageMaker 发布的一系列更新,扩大了机器学习在模型生命周期中的治理规模,让模型开发初步告别
深度学习与Python
2023/03/29
4060
是时候好好治理 AI 模型了!
亚马逊 re:Invent 2021:塑造以人为本的未来科技 | Q推荐
11 月 30 日,2021 亚马逊云科技 re:Invent 全球大会正式开启,作为全球云计算产业的盛会,re:Invent 每年坚持发布创新技术和服务、并邀请全球不同行业、规模的客户以及亚马逊云科技合作伙伴分享最新的商业创新实践。今年是 re:Invent 的第 10 年,新产品和新服务依然是讨论的焦点。
深度学习与Python
2021/12/16
8750
亚马逊推出新的机器学习芯片Inferentia;提供数据标记服务;全新GPU instance
亚马逊宣布推出一款由AWS设计的芯片Inferentia,专门用于部署带有GPU的大型AI模型,该芯片预计于明年推出。
AiTechYun
2018/12/24
8310
亚马逊推出新的机器学习芯片Inferentia;提供数据标记服务;全新GPU instance
基于Machine Learning Studio的企业级MLOps架构设计指南
随着机器学习(ML)技术在企业中的广泛应用,如何高效管理从数据准备到模型部署的完整生命周期成为关键挑战。MLOps(机器学习运维)通过融合DevOps理念与机器学习特性,实现了模型开发与运维的协同优化。 Machine Learning Studio(以下简称Azure ML Studio)作为微软推出的云原生机器学习平台,提供了覆盖全生命周期的工具链,支持企业构建标准化、可扩展的MLOps架构。本文将从架构设计原则、核心组件、实施路径及最佳实践等方面,深入探讨基于Aure ML Studio的企业级MLOps解决方案。
Michel_Rolle
2024/12/26
1.5K0
2018年大行其道的10种机器学习的工具和框架
2017年是机器学习大放异彩的一年,这归功于众多公司广泛而深入地研究和开发更新颖、更高效的工具和框架。这里介绍,有望在2018年大行其道的10种机器学习的工具和框架。 1.亚马逊Sagemaker A
机器人网
2018/04/12
1K0
2018年大行其道的10种机器学习的工具和框架
地理空间AI突围:机器学习云平台穿越数据迷雾
千百年来,当洪水、龙卷风和野火等自然灾害发生时,往往会造成难以预期的损失。而伴随云计算、大数据、AI等新兴技术的协同发力,这些灾害的破坏性更有可能得到控制,甚至在萌芽之初就被扼杀在摇篮里。
IT创事记
2023/02/17
6820
地理空间AI突围:机器学习云平台穿越数据迷雾
激荡十年,从未来窗口 re:Invent 看云计算发展变迁 | Q推荐
作者 | 张雅文   从最初被质疑仅仅是个广告概念,到如今形成巨大的产业生态,云计算已经高速发展十余年。这十余年间,IT 世界天翻地覆,无数新理念、新技术不断涌现,其变革速度让开发者应接不暇,没有谁敢确信,自己正走在时代的最前沿。 或许也正是因此,re:Invent 作为云计算领域的全球最大规模的会议,每年都能吸引上万名开发者去往拉斯维加斯。今年是 re:Invent 第十年,在过去的十年中,re:Invent 曾无数次预见未来,其部分产品发布堪比权威机构的调研定调,使得这场盛会几乎成为全世界开发者看向未
深度学习与Python
2023/04/01
5050
激荡十年,从未来窗口 re:Invent 看云计算发展变迁 | Q推荐
在re:Invent 2022大会上,我们看到了云计算的未来
AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。
机器之心
2022/12/16
5640
在re:Invent 2022大会上,我们看到了云计算的未来
只需3行代码自动生成高性能模型,支持4项任务,亚马逊发布开源库AutoGluon
这大概就是为什么亚马逊开发了AutoGluon,这是一个开放源代码库,旨在使开发人员仅用几行代码即可编写AI嵌入的应用程序。它已经在GitHub上公开发布。
AI科技大本营
2020/02/12
9670
只需3行代码自动生成高性能模型,支持4项任务,亚马逊发布开源库AutoGluon
推荐阅读
相关推荐
MLOps主要是数据工程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档