【业界】自动机器学习的数据准备要素——分析行业重点

数据准备对于任何分析、商业智能或机器学习工作都是至关重要的。尽管自动机器学习提供了防止常见错误的保护措施,并且足够健壮地来处理不完美的数据,但是你仍然需要适当地准备数据以获得最佳的结果。与其他分析技术不同的是,机器学习算法依赖于精心策划的数据源。你需要在一个广泛的输入变量和结果度量的范围内组织你的数据,这些数据将描述整个事件的整个生命周期。

在这篇文章中,我将描述如何以一种机器学习的格式合并数据,这种格式准确地反映了业务流程和结果。我将分享基本的指导方针和实用的技巧,从而帮你掌握自动机器学习模型数据准备的方法。

与众不同的想法 机器学习的数据准备需要业务领域的专业知识、偏见意识和实验思维过程。在准备数据之前,首先要定义一个业务问题。在这个练习中,你将选择一个结果度量,并对潜在的输入变量进行集体讨论,这些变量会从许多不同的角度影响它。从那里开始,你将开始识别、收集、清洗、整理和取样数据,以运行自动化的机器学习模型过程。

请注意,在现有的事务处理过程之外,相关的机器学习输入数据也不是不常见的。如果是这样的话,你仍然可以使用现有的数据创建第一代机器学习模型,并随着时间的推移继续构建新的模型版本。

机器学习输入数据源 机器学习算法摄取单表、视图或逗号分隔值(.csv)平面文件。如果你的数据存储在多维数据仓库或在事务处理性的、标准化的数据库格式中,你将需要从多个表中联接字段,以创建一个统一的、扁平的机器学习“视图”。

机器学习“视图”包含结果度量,以及输入预测变量,这些变量应该在分析粒度级别上收集,这样你就可以做出可操作的决策。注意不要过度聚集,或是过于复杂的变量设计。选择分析细节的一个既可以理解,也可以用于对模型进行操作的层次。

10种顶尖的数据准备技巧 即使将来数据清洗和功能工程任务自动化变得更普遍,业务主题的专业知识和数据准备的创造性仍将是关键的模型性能差异。由于自动化机器学习模型的质量取决于输入的质量,所以在这里我将介绍10种数据准备技巧,可以帮助你构建更好的模型。

1.通过预测输出的可执行决策选择粒度的度量级别。

2.预测算法假定每个记录都是独立且不相关的。如果在记录之间存在关系,则创建一个称为特性的新派生变量来捕获数据关系。

3.在选择预测变量时,请记住,从最少数量的变量中收集最大数量的信息,以避免不适应或不匹配的维度。

4.决定如何处理异常值。一些算法,例如回归算法对它们在统计意义计算中的标准偏差非常敏感。确认数据是否相关,是否真实。可以考虑使用转换来减少异常影响。

5.对于缺失值,你可以删除它,或者将它归因于一个可能的或期望的值。如果你把它归因于平均值,你可能会减少你的标准差,因此基于分布的估算方法更可靠。当你处理缺失值时,不要丢失初始上下文(initial context)。常见的一种方法是在行中添加一个列来标记数据丢失。

6.机器学习算法假定输入的信息是正确的。如果只有少数几个值,就把不正确的值当作缺失值。如果有很多不准确的值,试着确定修复它们的过程中会发生什么。

7.在可能的情况下,通过一个变换函数来减少变量的偏差,变换函数对分布的尾部有不成比例的影响。

8.避免使用包含大量不同值的高基数域。

9.不要使用重复的、冗余的或其他高度相关的变量,这些变量携带相同的信息或存在于相同的层次结构中,以避免共线性问题。

10.由于信息增益与这些交互相关,从多个组合变量和比率中创建特性比任何单变量的转换都提供了更多的改进和模型精确度。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

以静制动的TensorFlow Fold动态计算图介绍

来源:https://zhuanlan.zhihu.com/p/25216368

1131
来自专栏AI科技评论

苹果机器学习开发日记:如何设计能在Apple Watch上实时运行的中文手写识别系统

AI 科技评论按:随着苹果机器学习日记(Apple ML Journal)的开放,苹果分享出的设计自己产品、运用机器学习解决问题的故事也越来越多。近日苹果在上面...

35111
来自专栏人工智能头条

从零实现来理解机器学习算法:书籍推荐及克服障碍的技巧

1345
来自专栏CSDN技术头条

25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。W...

1907
来自专栏数据科学与人工智能

【机器学习】从零实现来理解机器学习算法:书籍推荐及障碍的克服

并非所有的开发者都有机器学习算法的基础知识,那么开发者如何从零入门来学习好机器学习算法呢?本文总结推荐了一些从零开始学习机器学习算法的办法,包括推荐了一些合适的...

2509
来自专栏超智能体

超智能体L01:9分钟的深度学习

2937
来自专栏人工智能头条

25个Java机器学习工具库

1556
来自专栏程序员叨叨叨

1.2 GPU VS CPU

从上节阐述了GPU的发展历史,那么为什么在CPU之外要发展GPU?GPU 的 vertex programmability 和 fragment program...

945
来自专栏AI科技大本营的专栏

技能 | 只要五步,教你撸一个缩减版国际象棋AI

从国际象棋到中国围棋,人类与“机器”已经较上了劲。 看过那么多场对战,你是不是也想上手体验一把? 来来来,简单五步,手把手教你撸一个缩减版的国际象棋AI。 ...

2797
来自专栏AI科技大本营的专栏

AI 技术讲座精选:深度拼写——重新认识21世纪的拼写校正程序

本文是一篇关于工程学的内容,讲述的是当前较先进的技术——拼写校对程序。这项技术的用处就是让低级工程师使用起来得心应手。 许多年前,我根据Peter Norvig...

2708

扫码关注云+社区