专栏首页ATYUN订阅号Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程

Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程

AiTechYun

编辑:chux

Databricks研究调查的初步结果显示,96%的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键,但数据和人工智能则处在孤岛中。Databricks是统一分析领域的领导者,由Apache Spark的原创者创建,利用统一分析平台解决了这一AI难题。今天在旧金山召开的Spark + AI峰会上,由4,000位数据科学家,工程师和分析领导者组成的年度盛会,为企业降低AI创新障碍创造了新的能力。这些新功能统一了数据和AI团队和技术:用于开发端到端机器学习工作流的MLflow,用于ML的Databricks Runtime以简化分布式机器学习,用Databricks Delta以提高数据的可靠性和性能。

“为了从人工智能中获得价值,企业依赖于他们现有的数据以及在海量数据集上迭代进行机器学习的能力。Databricks的联合创始人兼首席执行官Ali Ghodsi表示:“今天的数据工程师和数据科学家们使用众多断开连接的工具来完成这一任务,包括机器学习框架。组织和技术之间的矛盾减缓了项目速度,成为AI项目高度迭代性的障碍。统一分析是增加数据工程师和数据科学家之间的协作,统一数据处理和AI技术的方法。”

MLflow:通过端到端工作流提高机器学习的效率和有效性

数据对训练机器学习和投入生产至关重要。但是,在生产中使用机器学习很困难,因为开发过程是临时的,缺乏重现结果的工具,跟踪实验和管理模型。为了解决这个问题,Databricks推出了MLflow,一种开源的跨云框架,可以极大简化机器学习工作流程。借助MLflow,企业可以将其代码打包运行,且可重现,并执行和比较数百个并行实验,利用硬件或软件平台,将模型部署到各种服务平台上进行生产。MLflow集成了Apache Spark,SciKit-Learn,TensorFlow和其他开源机器学习框架。

“在构建Web或移动应用程序时,大家会知道如何做,因为我们已经构建了工具包,工作流和参考架构。但是没有机器学习的框架,它迫使组织将解决方案拼凑在一起,并确保高度专业化的技能来实现人工智能,”Databricks联合创始人兼首席技术官Matei Zaharia说。“MLflow是一个端到端的多云框架,用可重复的方式开发机器学习应用程序,同时灵活地在多个云环境中可靠地在生产环境中部署这些应用程序。”

Databricks Runtime for ML:简化和启用分布式深度学习

通过使用自然语言处理,图像分类和对象检测,深度学习越来越受欢迎。因此,数据量的增加使组织能够建立更好的模型,而数据复杂性则需要增加训练时间。这种冲突导致组织采用分布式深度学习,利用Tensorflow,Keras和Horovod等各种框架以及管理分布式计算的复杂性。

Databricks Runtime for ML通过与最流行的机器学习框架(如Tensorflow,Keras,xgboost和scikit-learn)紧密集成预配置环境消除了这种复杂性。Databricks还通过引入对AWS和Microsoft Azure的GPU支持来解决扩展深度学习的需求。数据科学家现在可以将数据集提供给模型,进行评估,并在统一的引擎上部署尖端的AI模型。

Databricks Delta:简化数据工程

根据Databricks委托进行的研究,组织需要7个多月才能将AI项目完成,其中有50%的时间用于数据准备。目前,企业使用各种系统构建其大数据架构,这增加了成本和运营复杂性。数据工程师正在努力简化数据管理并为数据科学家提供清晰,高性能的数据。

作为Databricks统一分析平台的关键组成部分,Delta通过提供大规模高性能,通过事务完整性实现数据可靠性以及流式传输系统的低延迟,扩展Apache Spark以简化数据工程。利用Delta,组织不再需要在存储系统属性之间进行权衡,也不需要花费资源在系统间移动数据。现在,数百个应用程序可以可靠地上传,并查询和更新大规模,低成本的数据,最终使数据集可以用于机器学习。

本文分享自微信公众号 - ATYUN订阅号(atyun_com)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 安静的半监督学习革命,一起清理未标记的数据

    对于机器学习工程师来说,访问大量数据十分重要,但有标记的数据很有限。处于此困境的人可能会查阅文献,思考下一步该做什么,而文献似乎都会给出一个现成的答案:半监督学...

    AiTechYun
  • 【业界】机器学习算法的透明度是一把双刃剑,该如何应对?

    ? 欧盟的通用数据保护条例(GDPR)将于2018年5月25日生效,它重新定义了组织如何处理欧盟公民个人数据的收集和使用。 关于GDPR的争论,主要是因为这个...

    AiTechYun
  • 赫尔辛基大学AI基础教程:机器学习的类型(4.1节)

    每张图片上方都会显示正确的标签(本应写入的数字)。请注意,某些“正确的”类标签是存疑的:例如,请参阅左侧的第二个图像:那是7还是4?

    AiTechYun
  • 机器学习无法精通吗?一文掌握机器学习窍门!

    如果你对人工智能和机器学习的理解还不是很清楚,那么本文对你来说将会很有用。我将配合精彩的视频和文字解说来帮助你全面理解机器学习。

    用户1737318
  • 入门AI不是梦?五大新手项目奉上

    人工智能风头正盛,无论你是支持还是怀疑,AI对这个时代的影响都已逐渐渗透到各行各业当中,哪怕身处非互联网行业,也能感受到AI的滚滚浪潮。

    商业新知
  • 数据科学,机器学习和人工智能有什么区别?

    当我介绍自己时,经常会被人问到诸如“机器学习和xx有何区别?”或“你在使用人工智能吗?”等问题。类似问题我已经回复了很多次,按照我的"3原则”我决定写一篇博文:...

    小莹莹
  • 数据科学、人工智能与机器学习傻傻分不清楚,看这篇就够了

    尽管"数据科学"、人工智能 (AI) 和机器学习属于同一领域,彼此相互联系,但是它们也有特定的应用背景和意义。它们有时也会有重叠,但基本上它们都有自己的特定的用...

    deephub
  • AI大行其道,你准备好了吗?仅送给徘徊于转行AI的程序员

    用户1737318
  • AQR最新研究 | 机器能“学习”金融吗?

    机器学习对资产管理有用吗?如果有用,将有何用?资本市场与机器学习在取得成功的环境方面有着根本的不同,而对机器学习用于资产管理的研究才刚刚开始。早期的证据表明,机...

    量化投资与机器学习微信公众号
  • 【280页JP摩根报告】大数据和 AI 策略——面向投资的机器学习和另类数据方法

    【新智元导读】近日,微软 AI 首席科学家邓力加盟对冲基金公司 Citadel 再次引发了人们对于机器学习技术应用于金融投资领域的关注。J.P.摩根最新的28...

    新智元

扫码关注云+社区

领取腾讯云代金券