前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据量很少,用什么模型?| 数说 · 算法

数据量很少,用什么模型?| 数说 · 算法

作者头像
数说君
发布2018-03-28 17:17:29
10.6K0
发布2018-03-28 17:17:29
举报
文章被收录于专栏:数说工作室数说工作室

数说君曾经在公众平台上发起过这个话题:

【小样本预测模型哪家强?】想要用X1、X2、X3预测Y,训练样本只有30个或者以内,有什么用的模型可选?您的推荐是?

收到了各位大神的各种建议,如:

  • 样本小,当然贝叶斯;
  • bootstrap然后再用回归什么的吧(这个最多);
  • 灰色预测模型(PS:该模型是一位中国人提出的);
  • 人工神经网络;

等等...

还有一位同学的回答,数说君认为很经典:

  • 不在于样本数多少,在于是否够——足够近似到正态。当然不能太少了,否则随机性很强。

数说工作室特约撰稿人飞扬博士的建议是:

  • 巧用交叉验证。 比如留一交叉验证法,每次都将一个样本作为测试样本,其它N-1个样本作为训练样本。这样得到N个训练模型,N个测试结果。用这N个结果的平均值来衡量模型的性能。

交叉验证可以从有限的样本中获得更充分的信息,让样本更有效的利用。关于交叉验证的具体内容,飞扬博士过几天将会专门介绍一下。

最后,分享一张scikit-learn.org的flow chart,它概括了如何根据数据量来选择模型

(看不清楚请点开)

比如举个例子:

现在想通过身高、体重、年收入来预测一个人的性别(随便举的例子,勿喷~),目前有2万人的训练数据。

样本量大于50,预测的是一个分类变量(category),同时有标记数据,即是有监督的学习(关于有监督和无监督,参考这里→机器学习分类大全),样本量2万<100K,根据这些条件,我们选择Linear SVC。

等一等...开头中数说君的话题【小样本预测模型哪家强】中,样本量为“30或以内”,按照这个指南图的标准,只-能-想-办-法---get more data了....

尼玛!让我哭一会~

针对小样本数据,如何选择模型? 欢迎各位大神给数说君留言,或者再下方评论区评论

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档