数据量很少,用什么模型?| 数说 · 算法

数说君曾经在公众平台上发起过这个话题:

【小样本预测模型哪家强?】想要用X1、X2、X3预测Y,训练样本只有30个或者以内,有什么用的模型可选?您的推荐是?

收到了各位大神的各种建议,如:

  • 样本小,当然贝叶斯;
  • bootstrap然后再用回归什么的吧(这个最多);
  • 灰色预测模型(PS:该模型是一位中国人提出的);
  • 人工神经网络;

等等...

还有一位同学的回答,数说君认为很经典:

  • 不在于样本数多少,在于是否够——足够近似到正态。当然不能太少了,否则随机性很强。

数说工作室特约撰稿人飞扬博士的建议是:

  • 巧用交叉验证。 比如留一交叉验证法,每次都将一个样本作为测试样本,其它N-1个样本作为训练样本。这样得到N个训练模型,N个测试结果。用这N个结果的平均值来衡量模型的性能。

交叉验证可以从有限的样本中获得更充分的信息,让样本更有效的利用。关于交叉验证的具体内容,飞扬博士过几天将会专门介绍一下。

最后,分享一张scikit-learn.org的flow chart,它概括了如何根据数据量来选择模型

(看不清楚请点开)

比如举个例子:

现在想通过身高、体重、年收入来预测一个人的性别(随便举的例子,勿喷~),目前有2万人的训练数据。

样本量大于50,预测的是一个分类变量(category),同时有标记数据,即是有监督的学习(关于有监督和无监督,参考这里→机器学习分类大全),样本量2万<100K,根据这些条件,我们选择Linear SVC。

等一等...开头中数说君的话题【小样本预测模型哪家强】中,样本量为“30或以内”,按照这个指南图的标准,只-能-想-办-法---get more data了....

尼玛!让我哭一会~

针对小样本数据,如何选择模型? 欢迎各位大神给数说君留言,或者再下方评论区评论

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2015-11-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | 聊聊数据挖掘竞赛中的套路与深度学习的局限

AI 科技评论按:本文原作者兔子老大,原载于其知乎专栏——MLの玄学姿势。转载已获得授权。 前言 刚好在暑假通过参加 kaggle 的 Zillow Prize...

41350
来自专栏AI科技评论

学界 | 如何让医学图像诊断网络具备可解释性?CVPR oral 作者张子钊详解 MDNet 技术细节

AI 科技评论按:AI 科技评论对各大顶级会议的论文及作者一直保持高度关注,在邀约优秀的与会老师和同学参加GAIR大讲堂等线下分享活动外,AI 科技评论也会持续...

36940
来自专栏QQ空间开发团队的专栏

有关照片聚类算法的思考

本文作者主要从聚类的规则、聚类效果、聚类的算法八个方面探讨有关照片聚类算法的思考。

65500
来自专栏量子位

创新工场王嘉平开讲:low-level的计算机视觉

颜萌 整理编辑 量子位 出品 | 公众号 QbitAI ? 近日,在DeeCamp创新工场深度学习训练营期间,创新工场AI工程院副院长王嘉平开讲《low-le...

33150
来自专栏机器之心

深度 | 迁移学习全面概述:从基本概念到相关研究

选自sebastianruder.com 作者:Sebastian Ruder 机器之心编译 参与:马亚雄、吴攀、李亚洲 将在一个场景中学习到的知识迁移到另一个...

34670
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记1 -- The Learning Problem

最近在看NTU林轩田的《机器学习基石》课程,个人感觉讲的非常好。整个基石课程分成四个部分: When Can Machine Learn? Why Can M...

40200
来自专栏ATYUN订阅号

新的AI工具可帮助设计人员扩展虚拟纹理,保持高度逼真

深圳大学和华中科技大学研究人员创造了一种新的AI工具,可以帮助设计人员为视频游戏,虚拟现实和动画制作更逼真的虚拟纹理。

14940
来自专栏AI科技评论

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者介...

12130
来自专栏深度学习自然语言处理

一文了解机器学习以及其相关领域(上)

阅读大概需要10分钟 原文作者 计算机的潜意识 链接 https://www.cnblogs.com/subconscious/p/4107357.html ...

34470
来自专栏新智元

文本生成哪家强?上交大提出基准测试新平台 Texygen

来源:arxiv 编译:Marvin 【新智元导读】上海交通大学、伦敦大学学院朱耀明, 卢思迪,郑雷,郭家贤, 张伟楠 , 汪军,俞勇等人的研究团队最新推出Te...

55380

扫码关注云+社区

领取腾讯云代金券