首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自动化工具如何改变数据科学

数据科学现在是技术投资的一个主要领域,因为它对客户体验,收入,运营,供应链,风险管理和许多其他业务功能产生影响。数据科学为组织提供以数据为中心的决策过程,加速数字化转型和人工智能计划。据Gartner公司称。只有4%的CIO实施了AI,只有46%的人计划这样做。虽然投资继续增长,但许多企业发现实施和加速数据科学实践的难度越来越大。本文概述了机器学习和数据科学自动化工具的最新趋势,并阐述了这些工具如何改变数据科学。

传统的数据科学过程

那么是什么阻碍了企业采用和促进数据科学呢?典型的企业数据科学项目非常复杂,涉及许多步骤,包括数据收集,最后一英里ETL (数据清洗),特征工程,机器学习,可视化和生产(见下图)。即使是经验丰富的团队,传统的数据科学项目也需要几个月才能完成。这是一个高度参与和协作的过程,需要广泛的专业技能,如领域专家,数据工程师,数据科学家,商业智能工程师和软件架构师。此外,大多数企业数据科学项目的结果难以解释,使业务用户难以实现结果。

传统的数据科学过程

是什么让数据科学项目变得困难?

玩机器学习(ML)模型被认为是有趣的部分,但任何数据科学项目的真正痛点往往是最后一英里的ETL和特征工程。如下图所示,机器学习需要一个称为特征表的平面表。给定一个特征表,数据科学家可以使用ML算法。但实际的企业数据绝不是一个单一的平台。相反,它是许多具有复杂关系的数据表的集合。

机器学习所需的数据(左)与实际企业源数据(右)

最后一英里ETL和特征工程是将表转换为特征表的必要步骤。这些是数据科学项目中最具挑战性和最耗时的步骤,需要高技能的数据科学家和领域专家 – 他们是昂贵且稀缺的资源。

“......特征工程通常是机器学习项目中的大部分工作......以及直觉,创造力和”黑色艺术“与技术内容一样重要......”。 - Pedro Domingos博士

数据科学和机器学习自动化工具

自动化机器学习的试验已于2010年初开始(例如2013 年的AutoWEKA)并且已经变得非常时尚。 DataRobot和H2O.ai是机器学习自动化领域领先的创业公司。

机器学习自动化的基本思想是使用不同的超参数训练使用不同算法(包括缺失值插补等预处理)的评分模型,并验证其准确性以选择最佳模型。最近,像微软这样的公司也开始支持机器学习自动化工具。这些出色的工具大大简化了构建机器学习模型 另一方面,最后一英里的ETL和特征工程仍然是一个手动过程,需要领域专家和数据科学家的大量参与。

虽然已经努力实现特征工程的自动化,但大多数都专注于给定特征表的非线性变换,这只是特征工程过程的一小部分,并依赖于特征表的手动创建。dotData发布了一个平台,不仅可以从源数据中自动化特征工程,还可以自动化机器学习。dotData称之为“数据科学自动化”。其AI驱动的功能工程自动设计并生成重要且可解释的功能,而无需领域知识。该平台涵盖了与数据科学过程相关的各种任务,使构建和实施数据科学项目变得更加容易和快捷。

自动化工具如何改变数据科学?

数据科学家或领域专家是否会被自动化工具取代?答案显然是否定的。没有工具可以真正取代熟练的专家。相反,它使他们更有效率。自动化将以三种主要方式影响数据科学:

敏捷性:传统的数据科学过程通常遵循“瀑布式”方法,这涉及数据清理,ETL和特征工程方面的重要前期工作,因为每个步骤都需要大量手动和耗时的工作。自动化工具使得尝试创意变得更加容易和快捷,因此数据科学家可以探索高影响力的用例。

民主化:大型企业中有数百个潜在的分析用例(或者甚至更多)。自动化工具使具有不同技能的人能够执行数据科学,并使经验丰富的数据科学团队能够专注于高价值创建用例。

可操作:正如本文开头所述,大多数企业尚未实施人工智能和数据科学。许多企业级自动化工具会自动生成可在生产中立即运行的API或可执行程序包。这大大缩短了在企业中实施数据科学的时间和障碍(上面第一个插图的最后一步)。

随着企业转向数据驱动型文化,数据科学变得更加重要。自动化工具有助于加速数据科学和业务创新。

注:

企业中有两种类型的ETL(包括数据清理)。一种是“主数据ETL”,它为组织中的一般用途准备数据。有许多很棒的工具可以支持这个过程,比如informatica。另一方面,即使主数据准备充分,我们仍然需要为每个分析用例定制ETL工作,这被称为“最后一英里ETL”。

Ryohei Fujimaki博士是dotData的创始人兼首席执行官。在创建dotData之前,他是NEC公司119年历史上最年轻的研究员,这个名称在1000多名研究人员中仅获得六个人的荣誉。在NEC任职期间,Ryohei积极参与NEC全球业务客户开发许多尖端数据科学解决方案,并成功交付了目前在工业中广泛使用的几种高端分析解决方案。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190115B1156600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券