小数据集同样重要！掌握处理它的7种方法

AI算法与图像处理

发布于 2019-10-28 12:14:27

6070

发布于 2019-10-28 12:14:27

文章被收录于专栏：AI算法与图像处理

来源：读芯术

全文共2427字，预计学习时长5分钟

在现实生活中，通常只能使用一个小数据集。基于少量观测数据所训练出的模型往往会过度拟合，产生不准确的结果。所以即使可用的数据是极其有限的，也需要了解如何避免过度拟合，并获得准确的预测。

大数据和数据科学这两个概念常常被一并提及。人们认为，数据科学可以从大量数据的万亿字节中得出一些有价值的见解。的确，理论上可以。

然而，在实际的场景中，能用来解决问题的数据通常是有限的。因为收集一个庞大的数据集可能会非常昂贵，或者根本就不可能（例如，在进行时间序列分析时，只有来自特定时间段的记录）。因此，时常除了使用一个小数据集来尽可能获得准确的预测外，别无选择。

本文将简要介绍在使用小数据集时可能会出现的问题。随后再讨论哪些技术可以最有效地克服这些问题。

权衡偏差与方差

简而言之，权衡偏差和方差就是寻找一个完美的模型来解释数据。

偏差是模型预测值和真实值之间的差异。高偏差模型过分简化了期望预测和目标变量之间的关系，并且在训练和测试数据上都显示出高误差。

方差则反映了模型预测的偏离程度。高方差模型过于关注训练数据，却不能很好地关注到测试数据集。结果，这些模型在训练集上显示出很低的误差，而在测试集上显示出很高的误差。

过度拟合/不充分拟合/良好平衡

拥有低偏差和高方差的模型对数据拟合过度，而高偏差和低方差的模型则对数据拟合不足。

而且，在小数据集上训练的模型更可能会显示出不存在的模式，这会导致测试集的高方差及高错误。这是过度拟合的常见症状。因此，使用小数据集时，要尤为注意避免过度拟合。

那怎么才能做到这一点呢？

克服小数据集过度拟合的技术

现在就来讨论一下，在处理小数据集时，避免过度拟合的七种最有用的技术分别是什么。

1.选择简单的模型。

因为具有许多参数的复杂模型更容易过度拟合：

• 在训练分类器时，可以考虑从逻辑回归开始。

• 在预测某个值时，考虑训练一个简单的、权重有限的线性模型。

• 对于树型模型，限制其最大深度。

• 使用正则化技术，使模型更加准确。

由于数据有限，所以要限制模型显示出不存在的模式和关系的可能。这意味着要限制权重和参数的数量，并排除掉所有可能具有非线性或特征交互的模型。另外要注意，根据研究，某些分类器可能更擅长处理小数据集。

2.从数据中删除异常值。

使用小数据集时，异常值可能会对模型产生巨大影响。因此，在处理较少的数据时，需要识别并删除异常值。另一种方法是，使用对于异常值比较稳健的技术，如分位数回归。想要获得一个小数据集的合理模型，去除异常值的影响至关重要。

3.相关特征选择。

通常，显式特征选择不是最佳的方法，但当数据有限时，这可能就是必不可少的一步。因为当有少量观测值和大量预测值时，很难避免过度拟合。特征选择有几种方法，包括与目标变量的相关性分析、重要性分析和递归消除。另外值得注意的一点是，专业领域知识将对功能选择有很大帮助。因此，如果不熟悉该领域，有必要找一个该领域的专家来讨论其特征选择的过程。

4.组合多个模型。

当把多个模型的结果组合起来时，可能得到更准确的预测。例如，与来自每个个体模型的预测相比，来自所有个体模型的预测的加权平均值计算出的最终预测，其方差显著降低，也更加具有概括性。此外，还可以组合来自不同模型的预测，或是将来自同一模型不同的超参数值的预测组合起来。

组合来自多个模型的预测

5.依靠置信区间而不是点估计值。

除了预测本身之外，估计预测的置信区间通常也是一个好方法。特别在处理小数据集时，这一点尤其重要。因此，在回归分析中，一定要估计一个95%的置信区间。如果要解决分类问题，就要计算分类预测的概率。当更好地了解到模型对其预测有多“自信”时，就更少可能会根据模型的结果得出错误的结论。

6.扩展数据集。

当数据非常有限或数据集严重不平衡时，搜索扩展数据集的方法。可以使用这两种：

• 使用合成样本。这是解决数据集中某些类表示不足的常见方法。使用合成样本扩充数据集，有好几种方法，选择一个最适合的来完成特定任务。

• 使用其他来源的数据。例如，如果正在对某个特定区域的温度进行建模，也可以使用其他区域的天气信息，但是要为重点研究区域的数据点分配更高的权重。

7.运用迁移学习。这种方法也是数据扩展的一种。迁移学习就是在可用的大型数据集上训练通用模型，然后在小型数据集上对其进行微调。例如，在处理一个图像分类问题时，可以使用一个在ImageNet（一个巨大的图像数据集）上预先训练的模型，然后针对特定问题对其进行微调。比起从零开始使用有限数据训练的模型，使用预先训练的模型更可能产生准确的预测。并且，灵活运用深度学习技巧，迁移学习尤其有效。

不用担忧，小数据是一个你完全可以克服的挑战！

许多研究者和实践者都认为，小数据是数据科学的未来。因为，庞大的数据集并非对每一种问题都是可行的。遵循以下指导，来一起克服小数据集的挑战吧：

• 了解统计学基础，知晓在处理少量观察数据时可能会遇到的问题。

• 学习避免过度拟合的关键策略，并从小数据中获得准确结果。

• 有效地执行所有数据清理和数据分析步骤（例如，使用R语言中的Tidyverse或数据科学中的Python工具）。

• 从预测中得出结论时，注意模型的局限性。

若还缺乏一些处理小数据所需的知识，那么在网上可以找到一些很好的课程来学习。例如，在Vertabelo Academy网站，人们可以通过参与互动练习来学习基础统计学和数据分析。还有一些其他数据科学课程，例如Coursera、 edX、 Udemy 和 Udacity。然而，这些课程往往缺乏互动性，所以对于非IT人员可能具有挑战性。

编译组：沈田、殷睿宣

小数据集同样重要！掌握处理它的7种方法

小数据集同样重要！掌握处理它的7种方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐