我想为我的问题陈述构建一个分类器,因为我没有数据。那么,在进行数据采集时,最小样本大小应该是多少?如果我自己贴上每个观察的标签来建立一个有效的数据集,这会是一个好的做法吗?(我不能在进行数据采集和手工操作的同时,将观察标记到每个类的过程中自动化,这需要大量时间)
发布于 2016-06-22 14:19:35
不幸的是,如果没有至少200-300张记录,你将无法做很多事情。在数据集扩展到至少1,000之前,您将被限制为简单的(即主要是线性的)模型。少于1,000将需要非常彻底的交叉验证,如果您不小心,您将有风险建立一个模型,很容易适应。
@EricLecoutre提出了一个很好的观点,你应该使用Amazon的机械土耳其语。通常每张唱片只花1到2美分,可以节省你很多时间。
https://datascience.stackexchange.com/questions/12344
复制相似问题