前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >掌握机器学习中数据准备的六个步骤

掌握机器学习中数据准备的六个步骤

作者头像
陆勤_数据人网
发布2019-01-09 11:37:26
1.6K0
发布2019-01-09 11:37:26
举报

笔者邀请您,先思考:

1 您如何做数据准备?有哪些注意点?

为了分析和机器学习计划准备数据,团队可以加速机器学习和数据科学项目,以提供身临其境的客户体验,通过下面六个关键步骤来加速和自动化数据到洞察的管道。

当今组织继续寻找快速,准确地准备数据的方法,以解决他们的数据挑战并实现机器学习(ML)。 但在将数据引入机器学习模型或任何其他分析项目之前,确保其数据清晰,一致且准确非常重要。 由于今天的大部分分析都依赖于数据的上下文,因此最好由最接近实际数据的人完成任务; 可以将预感,理论和业务知识应用于数据的业务领域专家。

遗憾的是,业务用户通常不具备数据科学技能,因此缩小这一差距可以快速从数据中获取价值。因此,许多人都在应用数据准备(DP)来帮助数据科学家和ML从业者快速准备和注释他们的企业数据,以便跨企业扩展数据对于分析工作的价值。

如何收集和准备数据是可信ML模型的基础

要创建一个成功的机器学习模型,组织必须有能力在部署到生产环境之前对它们进行训练、测试和验证。数据准备技术正在被用来创建现代机器学习所需的干净和标注的数据,但是,从历史上看,好的DP比机器学习过程的任何其他部分都要花费更多的时间。

减少数据准备所需的时间已经变得越来越重要,因为它留下了更多的时间来测试、优化和优化模型,从而创造更大的价值。为了分析和机器学习计划准备数据,团队可以加速机器学习和数据科学项目,以提供身临其境的客户体验,通过下面六个关键步骤来加速和自动化数据到洞察的管道。

步骤1 数据收集

这是迄今为止最重要的第一步,因为它处理了一般性的挑战,包括:

  • 自动确定存储在.csv(逗号分隔)文件中的数据字符串中的相关属性
  • 将高度嵌套的数据结构(如XML或JSON文件中的数据结构)解析为表格形式,以便更容易地扫描和模式检测。
  • 从外部存储库搜索和标识相关数据。

但是,在考虑DP解决方案时,请确保它可以将多个文件合并到一个输入中,例如当您有一组代表日常事务的文件时,但是您的机器学习模型需要摄取一年的数据。此外,确保有一个应急计划,以克服与数据集和机器学习模型中的抽样和偏差相关的问题。

步骤2 数据探索和分析

一旦收集了数据,就应该评估它的状况,包括寻找趋势、异常值、不正确、不一致、缺失或不正确的信息。这是很重要的,因为您的源数据将会告知您的模型的所有发现,所以确保它不包含不可见的偏见是至关重要的。例如,如果您正在研究全国范围内的客户行为,但是只从有限的样本中提取数据,那么您可能会错过重要的地理区域。这是在整个数据集(而不仅仅是部分数据集或示例数据集)上发现任何可能不正确地扭曲模型结果的问题的时候。

步骤3 格式化数据使其一致

大数据准备的下一步是确保数据的格式最适合机器学习模型。如果您正在聚合来自不同来源的数据,或者您的数据集已经被多个手动更新,那么您可能会发现数据格式化的异常(例如,USD5.50与$5.50)。同样地,对列中的值进行标准化,例如可以拼写或缩写的状态名)将确保正确聚合数据。一致的数据格式消除了这些错误,以便整个数据集使用相同的输入格式协议。

步骤4 改进数据质量

在这里,首先要有一个策略来处理数据中的错误数据、缺失值、极值和异常值。如果自助数据准备工具内置了智能设施,可以帮助匹配来自不同数据集的数据属性,以便智能地组合这些属性,那么自助数据准备工具就可以提供帮助。例如,如果你在一个数据集有名和姓的列,另一个数据集有一个列叫客户似乎是名字和姓氏结合,智能算法应该能够有一种方法去匹配这些和和加入数据集以得到客户的单一视图。

对于连续变量,请确保使用直方图来检查数据的分布并降低偏度。一定要检查超出可接受值范围的记录。这个“离群值”可能是输入错误,也可能是真实而有意义的结果,它可以通知未来的事件,因为重复或类似的值可能包含相同的信息,应该消除。类似地,在自动删除所有缺少值的记录之前要小心,因为太多的删除可能会使数据集不再反映真实情况。

步骤5 特征工程

这一步涉及到将原始数据转换为更好地表示学习算法模式的特征的艺术和科学。例如,可以将数据分解为多个部分,以捕获更具体的关系,例如按星期的哪一天分析销售业绩,而不仅仅按月或年分析。在这种情况下,将日期作为一个单独的分类值(例如“Mon;),可以为算法提供更多相关信息。

步骤6 把数据集分割为训练集和评价集

最后一步是将数据分成两组;一个用于训练算法,另一个用于评估。确保为培训和评估集选择不重叠的数据子集,以确保正确的测试。投资于那些为机器学习算法的输入提供原始源以及准备好的数据的版本控制和编目以及它们之间的关系的工具。通过这种方式,您可以将预测的结果追溯到输入数据,从而随着时间的推移对模型进行优化。

加速业务性能——DP如何支持ML和解决数据挑战

数据准备长期以来一直被认为可帮助业务领导者和分析师准备分析,运营和监管所需的数据。在Amazon Web Services(AWS)和Azure上运行的自助数据准备通过利用基于云的环境的许多有价值的属性将其提升到新的水平。

因此,借助内置智能和智能算法,最接近数据且最了解其业务环境的业务用户可以快速准确地准备数据集。他们可以在直观的可视化应用程序中工作,通过点击而非代码访问,探索,塑造,协作和发布数据,并提供完整的治理和安全性。 IT专业人员能够跨企业和云数据源维护数据量和多样性的规模,以支持业务场景,以满足即时和可重复的数据服务需求。

像DP这样的解决方案解决了许多数据挑战,并使ML和数据科学工作流程能够通过机器智能增强应用程。更重要的是,它使他们能够将数据转换为按需信息,从而使组织中的每个人,流程和系统更加智能化。

作者:David Levinger 原文链接: https://www.kdnuggets.com/2018/12/six-steps-master-machine-learning-data-preparation.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 步骤1 数据收集
  • 步骤2 数据探索和分析
  • 步骤3 格式化数据使其一致
  • 步骤4 改进数据质量
  • 步骤5 特征工程
  • 步骤6 把数据集分割为训练集和评价集
  • 加速业务性能——DP如何支持ML和解决数据挑战
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档