数说君曾经在公众平台上发起过这个话题:
【小样本预测模型哪家强?】想要用X1、X2、X3预测Y,训练样本只有30个或者以内,有什么用的模型可选?您的推荐是?
收到了各位大神的各种建议,如:
等等...
还有一位同学的回答,数说君认为很经典:
数说工作室特约撰稿人飞扬博士的建议是:
交叉验证可以从有限的样本中获得更充分的信息,让样本更有效的利用。关于交叉验证的具体内容,飞扬博士过几天将会专门介绍一下。
最后,分享一张scikit-learn.org的flow chart,它概括了如何根据数据量来选择模型:
(看不清楚请点开)
比如举个例子:
现在想通过身高、体重、年收入来预测一个人的性别(随便举的例子,勿喷~),目前有2万人的训练数据。
样本量大于50,预测的是一个分类变量(category),同时有标记数据,即是有监督的学习(关于有监督和无监督,参考这里→机器学习分类大全),样本量2万<100K,根据这些条件,我们选择Linear SVC。
等一等...开头中数说君的话题【小样本预测模型哪家强】中,样本量为“30或以内”,按照这个指南图的标准,只-能-想-办-法---get more data了....
尼玛!让我哭一会~
针对小样本数据,如何选择模型? 欢迎各位大神给数说君留言,或者再下方评论区评论