前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >小数据集同样重要!掌握处理它的7种方法

小数据集同样重要!掌握处理它的7种方法

作者头像
AI算法与图像处理
发布2019-10-28 12:14:27
6070
发布2019-10-28 12:14:27
举报
文章被收录于专栏:AI算法与图像处理

来源:读芯术

全文共2427字,预计学习时长5分钟

在现实生活中,通常只能使用一个小数据集。基于少量观测数据所训练出的模型往往会过度拟合,产生不准确的结果。所以即使可用的数据是极其有限的,也需要了解如何避免过度拟合,并获得准确的预测。

大数据和数据科学这两个概念常常被一并提及。人们认为,数据科学可以从大量数据的万亿字节中得出一些有价值的见解。的确,理论上可以。

然而,在实际的场景中,能用来解决问题的数据通常是有限的。因为收集一个庞大的数据集可能会非常昂贵,或者根本就不可能(例如,在进行时间序列分析时,只有来自特定时间段的记录)。因此,时常除了使用一个小数据集来尽可能获得准确的预测外,别无选择。

本文将简要介绍在使用小数据集时可能会出现的问题。随后再讨论哪些技术可以最有效地克服这些问题。

权衡偏差与方差

简而言之,权衡偏差和方差就是寻找一个完美的模型来解释数据。

偏差是模型预测值和真实值之间的差异。高偏差模型过分简化了期望预测和目标变量之间的关系,并且在训练和测试数据上都显示出高误差。

方差则反映了模型预测的偏离程度。高方差模型过于关注训练数据,却不能很好地关注到测试数据集。结果,这些模型在训练集上显示出很低的误差,而在测试集上显示出很高的误差。

过度拟合/不充分拟合/良好平衡

拥有低偏差和高方差的模型对数据拟合过度,而高偏差和低方差的模型则对数据拟合不足。

而且,在小数据集上训练的模型更可能会显示出不存在的模式,这会导致测试集的高方差及高错误。这是过度拟合的常见症状。因此,使用小数据集时,要尤为注意避免过度拟合。

那怎么才能做到这一点呢?

克服小数据集过度拟合的技术

现在就来讨论一下,在处理小数据集时,避免过度拟合的七种最有用的技术分别是什么。

1.选择简单的模型。

因为具有许多参数的复杂模型更容易过度拟合:

• 在训练分类器时,可以考虑从逻辑回归开始。

• 在预测某个值时,考虑训练一个简单的、权重有限的线性模型。

• 对于树型模型,限制其最大深度。

• 使用正则化技术,使模型更加准确。

由于数据有限,所以要限制模型显示出不存在的模式和关系的可能。这意味着要限制权重和参数的数量,并排除掉所有可能具有非线性或特征交互的模型。另外要注意,根据研究,某些分类器可能更擅长处理小数据集。

2.从数据中删除异常值。

使用小数据集时,异常值可能会对模型产生巨大影响。因此,在处理较少的数据时,需要识别并删除异常值。另一种方法是,使用对于异常值比较稳健的技术,如分位数回归。想要获得一个小数据集的合理模型,去除异常值的影响至关重要。

3.相关特征选择。

通常,显式特征选择不是最佳的方法,但当数据有限时,这可能就是必不可少的一步。因为当有少量观测值和大量预测值时,很难避免过度拟合。特征选择有几种方法,包括与目标变量的相关性分析、重要性分析和递归消除。另外值得注意的一点是,专业领域知识将对功能选择有很大帮助。因此,如果不熟悉该领域,有必要找一个该领域的专家来讨论其特征选择的过程。

4.组合多个模型。

当把多个模型的结果组合起来时,可能得到更准确的预测。例如,与来自每个个体模型的预测相比,来自所有个体模型的预测的加权平均值计算出的最终预测,其方差显著降低,也更加具有概括性。此外,还可以组合来自不同模型的预测,或是将来自同一模型不同的超参数值的预测组合起来。

组合来自多个模型的预测

5.依靠置信区间而不是点估计值。

除了预测本身之外,估计预测的置信区间通常也是一个好方法。特别在处理小数据集时,这一点尤其重要。因此,在回归分析中,一定要估计一个95%的置信区间。如果要解决分类问题,就要计算分类预测的概率。当更好地了解到模型对其预测有多“自信”时,就更少可能会根据模型的结果得出错误的结论。

6.扩展数据集。

当数据非常有限或数据集严重不平衡时,搜索扩展数据集的方法。可以使用这两种:

• 使用合成样本。这是解决数据集中某些类表示不足的常见方法。使用合成样本扩充数据集,有好几种方法,选择一个最适合的来完成特定任务。

• 使用其他来源的数据。例如,如果正在对某个特定区域的温度进行建模,也可以使用其他区域的天气信息,但是要为重点研究区域的数据点分配更高的权重。

7.运用迁移学习。这种方法也是数据扩展的一种。迁移学习就是在可用的大型数据集上训练通用模型,然后在小型数据集上对其进行微调。例如,在处理一个图像分类问题时,可以使用一个在ImageNet(一个巨大的图像数据集)上预先训练的模型,然后针对特定问题对其进行微调。比起从零开始使用有限数据训练的模型,使用预先训练的模型更可能产生准确的预测。并且,灵活运用深度学习技巧,迁移学习尤其有效。

不用担忧,小数据是一个你完全可以克服的挑战!

许多研究者和实践者都认为,小数据是数据科学的未来。因为,庞大的数据集并非对每一种问题都是可行的。遵循以下指导,来一起克服小数据集的挑战吧:

• 了解统计学基础,知晓在处理少量观察数据时可能会遇到的问题。

• 学习避免过度拟合的关键策略,并从小数据中获得准确结果。

• 有效地执行所有数据清理和数据分析步骤(例如,使用R语言中的Tidyverse或数据科学中的Python工具)。

• 从预测中得出结论时,注意模型的局限性。

若还缺乏一些处理小数据所需的知识,那么在网上可以找到一些很好的课程来学习。例如,在Vertabelo Academy网站,人们可以通过参与互动练习来学习基础统计学和数据分析。还有一些其他数据科学课程,例如Coursera、 edX、 Udemy 和 Udacity。然而,这些课程往往缺乏互动性,所以对于非IT人员可能具有挑战性。

编译组:沈田、殷睿宣

相关链接:

https://hackernoon.com/7-effective-ways-to-deal-with-a-small-dataset-2gyl407s

如需转载,请后台留言,遵守转载规范

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档