专栏首页AI算法与图像处理小数据集同样重要!掌握处理它的7种方法

小数据集同样重要!掌握处理它的7种方法

来源:读芯术

全文共2427字,预计学习时长5分钟

在现实生活中,通常只能使用一个小数据集。基于少量观测数据所训练出的模型往往会过度拟合,产生不准确的结果。所以即使可用的数据是极其有限的,也需要了解如何避免过度拟合,并获得准确的预测。

大数据和数据科学这两个概念常常被一并提及。人们认为,数据科学可以从大量数据的万亿字节中得出一些有价值的见解。的确,理论上可以。

然而,在实际的场景中,能用来解决问题的数据通常是有限的。因为收集一个庞大的数据集可能会非常昂贵,或者根本就不可能(例如,在进行时间序列分析时,只有来自特定时间段的记录)。因此,时常除了使用一个小数据集来尽可能获得准确的预测外,别无选择。

本文将简要介绍在使用小数据集时可能会出现的问题。随后再讨论哪些技术可以最有效地克服这些问题。

权衡偏差与方差

简而言之,权衡偏差和方差就是寻找一个完美的模型来解释数据。

偏差是模型预测值和真实值之间的差异。高偏差模型过分简化了期望预测和目标变量之间的关系,并且在训练和测试数据上都显示出高误差。

方差则反映了模型预测的偏离程度。高方差模型过于关注训练数据,却不能很好地关注到测试数据集。结果,这些模型在训练集上显示出很低的误差,而在测试集上显示出很高的误差。

过度拟合/不充分拟合/良好平衡

拥有低偏差和高方差的模型对数据拟合过度,而高偏差和低方差的模型则对数据拟合不足。

而且,在小数据集上训练的模型更可能会显示出不存在的模式,这会导致测试集的高方差及高错误。这是过度拟合的常见症状。因此,使用小数据集时,要尤为注意避免过度拟合。

那怎么才能做到这一点呢?

克服小数据集过度拟合的技术

现在就来讨论一下,在处理小数据集时,避免过度拟合的七种最有用的技术分别是什么。

1.选择简单的模型。

因为具有许多参数的复杂模型更容易过度拟合:

• 在训练分类器时,可以考虑从逻辑回归开始。

• 在预测某个值时,考虑训练一个简单的、权重有限的线性模型。

• 对于树型模型,限制其最大深度。

• 使用正则化技术,使模型更加准确。

由于数据有限,所以要限制模型显示出不存在的模式和关系的可能。这意味着要限制权重和参数的数量,并排除掉所有可能具有非线性或特征交互的模型。另外要注意,根据研究,某些分类器可能更擅长处理小数据集。

2.从数据中删除异常值。

使用小数据集时,异常值可能会对模型产生巨大影响。因此,在处理较少的数据时,需要识别并删除异常值。另一种方法是,使用对于异常值比较稳健的技术,如分位数回归。想要获得一个小数据集的合理模型,去除异常值的影响至关重要。

3.相关特征选择。

通常,显式特征选择不是最佳的方法,但当数据有限时,这可能就是必不可少的一步。因为当有少量观测值和大量预测值时,很难避免过度拟合。特征选择有几种方法,包括与目标变量的相关性分析、重要性分析和递归消除。另外值得注意的一点是,专业领域知识将对功能选择有很大帮助。因此,如果不熟悉该领域,有必要找一个该领域的专家来讨论其特征选择的过程。

4.组合多个模型。

当把多个模型的结果组合起来时,可能得到更准确的预测。例如,与来自每个个体模型的预测相比,来自所有个体模型的预测的加权平均值计算出的最终预测,其方差显著降低,也更加具有概括性。此外,还可以组合来自不同模型的预测,或是将来自同一模型不同的超参数值的预测组合起来。

组合来自多个模型的预测

5.依靠置信区间而不是点估计值。

除了预测本身之外,估计预测的置信区间通常也是一个好方法。特别在处理小数据集时,这一点尤其重要。因此,在回归分析中,一定要估计一个95%的置信区间。如果要解决分类问题,就要计算分类预测的概率。当更好地了解到模型对其预测有多“自信”时,就更少可能会根据模型的结果得出错误的结论。

6.扩展数据集。

当数据非常有限或数据集严重不平衡时,搜索扩展数据集的方法。可以使用这两种:

• 使用合成样本。这是解决数据集中某些类表示不足的常见方法。使用合成样本扩充数据集,有好几种方法,选择一个最适合的来完成特定任务。

• 使用其他来源的数据。例如,如果正在对某个特定区域的温度进行建模,也可以使用其他区域的天气信息,但是要为重点研究区域的数据点分配更高的权重。

7.运用迁移学习。这种方法也是数据扩展的一种。迁移学习就是在可用的大型数据集上训练通用模型,然后在小型数据集上对其进行微调。例如,在处理一个图像分类问题时,可以使用一个在ImageNet(一个巨大的图像数据集)上预先训练的模型,然后针对特定问题对其进行微调。比起从零开始使用有限数据训练的模型,使用预先训练的模型更可能产生准确的预测。并且,灵活运用深度学习技巧,迁移学习尤其有效。

不用担忧,小数据是一个你完全可以克服的挑战!

许多研究者和实践者都认为,小数据是数据科学的未来。因为,庞大的数据集并非对每一种问题都是可行的。遵循以下指导,来一起克服小数据集的挑战吧:

• 了解统计学基础,知晓在处理少量观察数据时可能会遇到的问题。

• 学习避免过度拟合的关键策略,并从小数据中获得准确结果。

• 有效地执行所有数据清理和数据分析步骤(例如,使用R语言中的Tidyverse或数据科学中的Python工具)。

• 从预测中得出结论时,注意模型的局限性。

若还缺乏一些处理小数据所需的知识,那么在网上可以找到一些很好的课程来学习。例如,在Vertabelo Academy网站,人们可以通过参与互动练习来学习基础统计学和数据分析。还有一些其他数据科学课程,例如Coursera、 edX、 Udemy 和 Udacity。然而,这些课程往往缺乏互动性,所以对于非IT人员可能具有挑战性。

编译组:沈田、殷睿宣

相关链接:

https://hackernoon.com/7-effective-ways-to-deal-with-a-small-dataset-2gyl407s

如需转载,请后台留言,遵守转载规范

本文分享自微信公众号 - AI算法与图像处理(AI_study)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 算法工程师的日常工作内容?你想知道的可能都在这里

    有很多小伙伴可能都对未来的工作内容有所好奇,不知道所谓的算法工程师到底日常在做什么,而我以后能不能胜任?

    AI算法与图像处理
  • 深度模型不work?这有一份超全的Debug检查清单

    前言:本笔记是对近日阅读keynote“Troubleshooting Deep Neural Networks”的总结。

    AI算法与图像处理
  • 在旷视两年的北大学子分享关于deep learning的调参经验

    总结一下在旷视实习两年来的炼丹经验,我主要做了一些 RL,图像质量,图像分类,GAN 相关的任务,日常大概占用 5 - 10 张卡。

    AI算法与图像处理
  • Quora问答:数据科学真的是一份有前途的工作吗?

    来源:Medium 编译:Bing 编者按:一个多月前,知名数据建模和数据分析竞赛平台Kaggle发布了他们首个数据科学&机器学习全行业调查,结果显示,全球数据...

    企鹅号小编
  • spark改七行源码实现高效处理kafka数据积压

    spark streaming消费kafka,大家都知道有两种方式,也是面试考基本功常问的:

    Spark学习技巧
  • 一个接口查询关联了十几张表,响应速度太慢?那就提前把它们整合到一起

    说到ETL,很多开发伙伴可能会有些陌生,更多的时候 ETL 是用在大数据、数据分析的相关岗位;我也是在近几年的工作过程中才接触到ETL的,现在的项目比较依赖 E...

    黄泽杰
  • R语言时间序列TAR阈值模型分析

    例如,在药物毒理学应用中,可能低于阈值量的所有剂量都是安全的,而随着剂量增加到阈值量以上,毒性增加。或者,在动物种群丰富度研究中,人口可能会缓慢增加至阈值大小,...

    拓端
  • 大神程序员,夜夜coding到天明?Python之父昼伏夜出,PHP创始人24小时都在线

    有位名叫 Ivan Bessarabov (简称“伊万”) 的好事者,刚刚统计了各路大佬的代码提交 (git commit) 时间分布。

    CSDN技术头条
  • 大神程序员,夜夜coding到天明?Python之父昼伏夜出,PHP创始人24小时都在线

    有位名叫Ivan Bessarabov (简称“伊万”) 的好事者,刚刚统计了各路大佬的代码提交 (git commit) 时间分布。

    量子位
  • 王文京:揭秘用友拥抱互联网不彻底的N个理由

    几个月前,用友联合英国《经济学人》杂志对北、上、广、深等地200家企业做调研,数据显示:新技术是企业发展的新引擎;过去,由信息主管自下而上推动技术应用的情况,正...

    人称T客

扫码关注云+社区

领取腾讯云代金券