前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在机器学习项目中,如何使预测建模问题的数据收益最大化

在机器学习项目中,如何使预测建模问题的数据收益最大化

作者头像
AiTechYun
发布2018-07-27 10:40:21
6090
发布2018-07-27 10:40:21
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

AiTechYun

编辑:chux

预测建模的成功与否,可能取决于你使用的数据,以及你使用这些数据的方法。问题的数据和框架可能是你完成项目的最大筹码。

如果在这个问题上,你选择了错误的数据或框架,那么将会导致模型性能不佳,甚至出现更糟的情况,比如模型无法聚合。如何使用数据,这些问题是无法用分析性运算解决的,不过试误法可以探索出怎样最充分地利用你手中的数据。

在这篇文章中,你将了解到在机器学习项目中,如何使你的数据收益最大化。

读完这篇文章,你会明白:

  • 探索预测建模问题的可替代框架的重要性。
  • 为输入数据设定一系列想法,系统地测试每个想法是有必要的。
  • 特征选择、工程设计和准备,都可以为问题创建更多想法。

概述

这篇文章大致分为8个部分:

  • 问题框架
  • 收集更多的数据
  • 研究你的数据
  • 训练数据样本大小
  • 特征选择
  • 特征工程
  • 数据准备
  • 更进一步

1.问题框架

利用自由联想,以多种方式构建你的预测建模问题。

问题的框架意味着以下元素的结合:

  • 输入
  • 输出
  • 问题类型

比如:

  • 无论数据多少,你都可以将其作为模型的输入数据吗?
  • 你能预测其他事情吗?
  • 你能把问题变成回归、分类、序列等问题吗?

你越有创造力越好,可以借鉴其他项目、论文和领域本身中所包含的想法。

学会利用自由联想:写下所有的想法,即使它们看似疯狂。

2.收集更多的数据

不要局限于你的需要,要获得更多数据,甚至是与预期结果无关的数据。

在出现结果之前,我们都不会知道到底需要多少数据。数据在模型开发期间流通,也需要给项目留下足够的空间。每次你使用一些数据时,其他任务能够使用的数据就会变少。

你需要在如下任务中使用数据:

  • 模型训练;
  • 模型评估;
  • 模型调整;
  • 模型验证。

此外,你所工程的独特项目是前所未有的,当然包括了你所独有的建模数据。你目前还并不知道到底哪些特征是有用的,你可能会有一些想法,但你还不能全然知晓谜底。将数据全部收集起来,让它们在这一阶段可以被尽数利用。

3.研究你的数据

将所有你能想到的数据可视化,从各种角度分析你的数据。

  • 查看原始数据会很有帮助,你会注意到一些细节;
  • 查看汇总统计信息也一样;
  • 数据可视化是这两种学习方式的完美结合,你会从中发现更多的东西。

在原始数据和汇总统计数据上花些时间,最后着手进行可视化,因为这一步需要更多的时间来准备。

使用你能想到的每个数据可视化方法,根据你的数据从各种书籍和论文中搜集资料。

  • 回顾统计图。
  • 保存统计图。
  • 注释统计图。
  • 向领域内的专家展示统计图。

你在寻求对数据更深入的了解,这些可以使用的想法能够帮你更好地选择、工程和准备建模数据,这样就会得到好的结果。

4.训练数据样本大小

对数据样本进行敏感性分析,看看你实际需要多少数据。你不应该分析所有的观察值,如果你这么做了,你就没必要预测新数据了。因此,你使用的只是数据中的一个样本。所以模型究竟需要多少数据是一个开放性问题。

不要以为越多越好,一定要进行测试。工程实验观察模型技能是如何随着样本大小变化的。用统计学知识分析重要趋势是如何随着样本大小变化的。没有这些知识,你就无法对测试工具有足够的了解,从而轻松地评价模型技能。

5.特征选择

为输入特征开发多种不同的想法,并对每个想法进行测试。

哪些变量对你的预测建模问题有帮助或最有帮助是未知的。

  • 你可以尽情猜想;
  • 你可以使用领域内专家的建议;
  • 您甚至可以从特征选择方法中获得的建议。

然而这些都只是猜想。每一组建议输入特征都是问题中的一个想法——关于什么特征可能对建模和预测输出变量有用。利用自由联想、计算等方法,收集尽可能多的不同想法的输入数据。设计实验并仔细地测试比较每个想法。用数据评估哪些特征和视图是最具预测性的。

6.特征工程

用特征工程来创建预测建模问题中额外的特征和想法。

有时你拥有所有可以获得的数据,但是给定的特征会屏蔽一些知识,而这些知识对于机器学习方法来说太过笨拙,以致于无法进行学习和映射结果变量。

例如:

  • 日期或时间。
  • 处理。
  • 描述。

将这些数据分解为更简单的额外成分特征,比如计数、标记或其他元素。在建模过程中,让事情尽可能变得简单。

7.数据准备

用你能想到的所有方法进行数据预处理,以满足算法的需要。预处理数据在输入特征中创设额外的想法,就像特征选择和特征工程那样。

一些算法对预处理有偏好,例如:

  • 规范化的输入特征。
  • 标准化的输入特征。
  • 使输入特征静止。

准备好符合这些期望的数据,然后更进一步。应用你能想到的所有数据预处理的方法。不断地为你的问题设定新的想法,并用模型来测试它们,看哪种效果最好。你的目标是发现有关数据的各种想法,哪一种能够在映射问题中,为学习算法最有效地揭露未知的潜在结构。

8.更进一步

通常你可以收集更多的数据,也可以为你的数据提出更多设想。自由联想很重要。

一旦你觉得自己已到达终点,那么开始调查建模问题中,基于不同想法建立的模型整体,将会是走向成功的便捷之路。这样做简单且高效,尤其是想法揭示了潜在映射问题的不同结构的情况(例如,模型存在不相关的误差)。

总结

在这篇文章中,你了解了使预测建模问题的数据收益最大化的技巧。

具体来说,你学习了以下内容:

  • 探索预测建模问题的可替代框架的重要性。
  • 为输入数据设定一系列想法,系统地测试每个想法是有必要的。
  • 特征选择、工程设计和准备,都可以为问题创建更多想法。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 1.问题框架
  • 2.收集更多的数据
  • 3.研究你的数据
  • 4.训练数据样本大小
  • 5.特征选择
  • 6.特征工程
  • 7.数据准备
  • 8.更进一步
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档