专栏首页ATYUN订阅号Salesforce开源用于结构化数据的机器学习库TransmogrifAI

Salesforce开源用于结构化数据的机器学习库TransmogrifAI

编译:chux

出品:ATYUN订阅号

机器学习模型可以识别数百,数千甚至数百万数据点之间的关系,但很难进行建构。数据科学家花费数周和数月不仅预处理要训练模型的数据,而且从该数据中提取有用的特征(即数据类型),缩小算法范围,最终构建(或尝试构建)系统需要不仅在实验室的范围内,而且在现实世界中表现良好。

Salesforce的新工具包旨在减轻这种负担。今天在GitHub上,这家云计算公司发布了 TransmogrifAI,这是一种用于结构化数据的自动化机器学习库,即在电子表格和数据库中找到的可搜索,整齐分类的数据,只需三行代码执行特征工程,特征选择和模型训练。

它是用Scala编写的,构建在Apache Spark(一些为Salesforce AI平台Einstein提供支持的技术)之上,并且是为了可扩展性而设计的。为此,它可以处理从几十到几百万行的数据集,并在Spark或现成的笔记本电脑上运行在集群机器上。

Salesforce Einstein产品管理总监Mayukh Bhaowal表示,TransmogrifAI实质上将原始数据集转换为自定义模型。这是Salesforce内部机器学习库的发展,它允许团队在短短几个小时内为企业客户部署自定义模型。

“这是我们的数据科学家在建造Einstein时所学到的知识,”Bhaowal解释道。这些课程中最主要的是:定制模型击败了全球性的预训练模型。“如果你使用相同的模型为财富500强企业和流行商店做出预测,你将很难找到合适的模式。”

TransmogrifAI提供三步工作流程。

首先是特征推断和自动特征选择。它是模型训练的关键部分,因为选择错误的特征可能会导致过于乐观,不准确或有偏见的模型。

使用TransmogrifAI,用户为其数据指定模式,库使用该模式自动提取功能(例如电话号码和邮政编码)。它还执行统计测试,自动编目具有低基数的文本字段,并抛弃具有很少甚至没有预测能力的特征,或者那些可能导致事后偏见(倾向于高估)的特征事件的可预测性和其他不需要的信号。

在一个演示中,Bhaowal展示了TransmogrifAI如何快速分离职位,电子邮件和地址等功能,并弄清楚它们是否具有预测性。在这种情况下那些不是被自动丢弃的。这是对维度减少的完美选择,他指的是减少模型训练的特性数量的过程。

TransmogrifAI流程的下一步是自动化功能工程。利用在第一步中提取的特征类型,库将结构化数据转换为矢量,例如,自动获取电话号码列表并拆分国家代码以查看电话号码是否有效。

一旦TransmogrifAI从数据集中提取了特征,就可以开始自动模型训练了。在这个阶段,它在数据上并行运行一系列机器学习算法,自动选择性能最佳的模型,并采样和重新校准预测以避免不平衡的数据。

TransmogrifAI训练核心是Salesforce Einstein数据科学高级主管Shubha Nabar称之为“模型可解释性”,关于影响模型预测的因素的透明度。“从信任和数据隐私的角度来看,生成的模型不是’黑匣子’很重要,TransmogrifAI显示了每个特征的全局效应。”

而那只是冰山一角。

TransmogrifAI拥有的工具可以更容易地调整超参数变量,如采样率和滤波器,影响和优化机器学习模型。在支持它的集成开发环境中,TransmogrifAI突出显示拼写错误和语法错误,建议代码完成以及具有可扩展层次结构的“类型”功能,允许用户区分细微差别和原始功能。

Bhaowal表示,“TransmogrifAI对我们来说是一个转型,减少训练高性能模型的平均周转时间到几个小时,使我们的数据科学家能够以最少的手动调整生产数千个模型,只有通过开放式的思想和代码交流才能实现机器学习民主化的目标,社区的不同观点将使技术更好地适用于每个人。”

TransmogrifAI:github.com/salesforce/TransmogrifAI

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:chux

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【学术】以精确性来提高对机器学习的信任

    传统的机器学习工作流程主要集中在模型训练和优化上,最好的模型通常是通过像精确或错误这样的性能度量来选择的,我们倾向于假定一个模型如果超过了这些性能标准的某些阈值...

    AiTechYun
  • 【行业】如何解决机器学习中出现的模型成绩不匹配问题

    评估机器学习模型的程序是,首先基于机器学习训练数据对其进行调试和评估,然后在测试数据库中验证模型是否具有良好的技能。通常,在使用训练数据集评估模型后,你会对得到...

    AiTechYun
  • 优化人工智能模型的工具——Auptimizer

    近年来,尽管像Databricks的AutoML工具包、Salesforce的transfogrfai和IBM的Watson Studio AutoAI等开源工...

    AiTechYun
  • 改进模型架构遇到了瓶颈?你该考虑改善自己的数据了!

    AI 科技评论按:这篇博客来自 Jetpac(现被谷歌收购) CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了一个很容易被...

    AI科技评论
  • 解决机器学习问题的一般流程

    本期将针对机器学习的新朋友,为大家讲解解决机器学习问题的一般思路: 很多博客、教程中都对机器学习、深度学习的具体方法有很详细的讲解,但却很少有人对机器学习问题的...

    磐创AI
  • 我在机器学习踩过的坑,现在告诉你怎么跳过去

    人工智能(其实本禅师认为目前看来翻译成人造智能可能更直白一点)毫无疑问,已经是科技趋势,却又是门槛相对较高、对学习者要求非常高的一门科学。

    用户1737318
  • Google AI 最新博文:模型的不确定性是否可信?

    在理想情况下,机器学习方法(如深度学习)被用来对与训练数据分布相同的数据进行预测。但实际情况可能大不相同:相机镜头变得模糊,传感器退化等问题,都可能导致训练模型...

    AI研习社
  • Linux命令行字符画生成器

    此项目移植于网页版字符画生成器,最初是为了方便公众号生成图文素材的封面图片。移植到Linux下后,不仅可以更方便生成字符画,也可应用于linux命令行模式下,使...

    PedroQin
  • Oracle 监控索引的使用率

        Oracle提供了索引监控特性来判断索引是否被使用。在Oracle 10g中,收集统计信息会使得索引被监控,在Oracle 11g中该现象不复存在。尽管...

    Leshami
  • TED|数学告诉你 完美伴侣如何选择

    大数据文摘

扫码关注云+社区

领取腾讯云代金券