前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Cloudera 机器学习中现已提供新的应用 ML 原型

Cloudera 机器学习中现已提供新的应用 ML 原型

作者头像
大数据杂货铺
发布2021-12-15 13:35:50
6180
发布2021-12-15 13:35:50
举报
文章被收录于专栏:大数据杂货铺

数据科学家的工作艰巨,这已不是什么秘密。感觉就像很久以前,每个人都在谈论数据科学是21 世纪最性感的工作。哎呀,这么久了,人们还亲自见面呢!今天,性感开始失去光泽。人们认识到,几乎不可能找到 2012 年每个 CEO 眼中的独角兽数据科学家。你知道那个,数学家 / 统计学家 / 计算机科学家 / 数据工程师 / 行业专家。事实证明,很难在一个大脑中找到所有这些令人敬畏的东西。

一些公司开始将独角兽数据科学家的职责划分为多个角色(数据工程师、ML 工程师、ML 架构师、可视化开发人员等),但总体而言,仍然强烈需要能够胜任的数据科学家每样东西都来一点。如果您不相信我们,请查看 LinkedIn 上数据科学职位发布的描述。

认识到数据科学家面临的各种工作负载,Cloudera 的应用 ML 原型(AMP) 库为数据科学家提供了预先构建的参考示例和端到端解决方案,使用一些最前沿的 ML 方法,用于各种常见的数据科学项目。每个 AMP 都包含所有依赖项、行业最佳实践、预构建模型和业务就绪的 AI 应用程序——只需点击几下即可部署,允许数据科学团队开始一个带有工作示例的新项目,然后他们可以对其进行自定义在很短的时间内需要。

我们非常高兴地宣布发布五个,是的五个新 AMP,现在可以在Cloudera 机器学习 (CML) 中使用。

感谢我们辛勤工作的研究小组在快进实验室,这些新的AMP涵盖了广泛的主题,从如何CML任务,新发布的自动化的深入示范CML API第2版,使用TPOT实现AutoML。

以下是已发布内容的概述:

CML API 入门

除了 UI 界面,Cloudera Machine Learning 还公开了一个 REST API,可用于以编程方式执行与项目、作业、模型和应用程序相关的操作。API v2 取代了旧的Jobs API,它允许将 CML 与第三方工作流工具集成或从命令行控制 CML。这个 Applied ML Prototype 包含一个 Jupyter 笔记本,它使用 Python 客户端演示了 CML API 的核心功能。

带有 TPOT 的 AutoML

在经验丰富的从业者手中,AutoML 有望将构建机器学习系统的一些繁琐部分自动化。TPOT是一个库,用于在整个 ML 管道上执行复杂的搜索,选择预处理步骤和算法超参数以针对您的用例进行优化。虽然为数据科学家节省了大量手动工作,但执行此搜索的计算成本很高。在这个 Applied ML Prototype 中,我们超越了使用笔记本电脑所能实现的目标,并使用 Cloudera Machine Learning Workers API 来启动按需Dask集群来分发 AutoML 计算。这为我们大规模自动化机器学习做好了准备!

总结

书面文本中锁定了大量信息,但从这些信息中收集见解可能需要时间限制。自动摘要是一种强大的自然语言处理功能,有可能通过算法摘要文章来加速任何文本处理工作流程,向用户提供最重要的内容。这个 Applied ML Prototype 使用Cloudera 机器学习应用程序抽象提供一个完整的用户界面,用户可以在其中比较和对比多个示例文章的几种摘要算法和策略。您甚至可以让模型总结您自己的输入文本!

训练 Gensim 的 Word2Vec

随着词向量表示的普及,“嵌入”已成为现代机器学习的主要内容——而且它们不再只是用于单词了!学习各种实体(例如零售产品、酒店列表、用户资料、视频、音乐等)的嵌入已经变得很普遍。几乎任何东西都可以表示为数值向量。一旦学习,这些向量可用于无数下游任务,如分类、聚类或推荐系统。这个 Applied ML Prototype 提供了一个 Jupyter Notebook 演示,展示了如何使用来自Gensim的经典Word2Vec算法 用于学习 entity2vec 嵌入的库,包括有关如何构建数据以及如何执行有效的超参数搜索以最大化 Word2Vec 理解实体数据的能力的指南。

TensorBoard 作为 CML 应用程序

TensorBoard是一种工具,可提供在机器学习工作流程中帮助检查、调试和迭代所需的测量和可视化。它可以跟踪实验指标,例如损失和准确性、模型图的可视化、嵌入到低维空间的投影等等。这个 Applied ML Prototype 演示了如何在 CML 中将 TensorBoard 作为应用程序运行。为了便于演示,运行了一个最小脚本来在MNIST数字数据集上训练神经网络,同时捕获日志,然后在 TensorBoard 仪表板中进行可视化。

如果您还不是 Cloudera 客户,请注册Cloudera 数据平台 (CDP) 的试驾,以亲身体验 AMP 的易用性。

原文作者:Jacob Bengtson

原文链接:https://blog.cloudera.com/new-applied-ml-prototypes-now-available-in-cloudera-machine-learning/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据杂货铺 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 我们非常高兴地宣布发布五个,是的五个新 AMP,现在可以在Cloudera 机器学习 (CML) 中使用。
    • CML API 入门
      • 带有 TPOT 的 AutoML
        • 总结
          • 训练 Gensim 的 Word2Vec
            • TensorBoard 作为 CML 应用程序
            相关产品与服务
            NLP 服务
            NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档