专栏首页PPV课数据科学社区【学习】数据模型需要多少训练数据?

【学习】数据模型需要多少训练数据?

有奖转发活动

回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。

【编者的话】毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是这取决于要执行的任务,要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的时候,或者说只有很少一点训练数据的情况,那应该怎么办呢?

与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算和具体的经验法则。例如本文将要介绍的实证方法:首先自动生成很多逻辑回归问题。然后对生成的每一个问题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问题上的关系总结出一个简单的规则。

生成一系列逻辑回归问题并研究不同数据量的训练数据所造成的影响的代码可以从GitHub上获取。相关代码是基于Tensorflow实现的,运行这些代码不需要任何特殊的软件或者硬件,用户可以在自己的笔记本上运行整个实验。代码运行之后生成的图表如下:

其中,X轴是训练样本的数量与模型参数数量的比率。Y轴是训练模型的得分(f-score)。不同颜色的曲线表示不同参数数量的模型。例如,红色曲线代表模型有128个参数,曲线的轨迹表明了随着训练样本从128 x 1到 128 x 2并不断增长的过程中该模型的得分变化。

通过该图表,我们能够发现模型得分并不会随着参数规模的变化而变化。但是这是针对线性模型而言,对于一些隐藏的非线性模型并不适合。当然,更大的模型需要更多的训练数据,但是对于一个给定的训练模型数量与模型参数数量比率其性能是一样的。该图表还显示,当训练样本的数量与模型参数数量的比率达到10:1之后,模型得分基本稳定在0.85,该比率便可以作为良好性能模型的一种定义。根据该图表我们可以总结出10X规则,也就是说一个优秀的性能模型需要训练数据的数量10倍于该模型中参数的数量。

10X规则将估计训练数据数量的问题转换成了需要知道模型参数数量的问题。对于逻辑回归这样的线性模型,参数的数量与输入特征的数量相等,因为模型会为每一个特征分派一个相关的参数。但是这样做可能会有一些问题:

· 特征可能是稀疏的,因而可能会无法直接计算出特征的数量。

· 由于正则化和特征选择技术,很多特征可能会被抛弃,因而与原始的特征数相比,真正输入到模型中的特征数会非常少。

避免这些问题的一种方法是:必须认识到估算特征的数量时并不是必须使用标记的数据,通过未标记的样本数据也能够实现目标。例如,对于一个给定的大文本语料库,可以在标记数据进行训练之前通过生成单词频率的历史图表来理解特征空间,通过历史图表废弃长尾单词进而估计真正的特征数,然后应用10X规则来估算模型需要的训练数据的数据量。

需要注意的是,神经网络构成的问题集与逻辑回归这样的线性模型并不相同。为了估算神经网络所需要的参数数量,你需要:

· 如果输入是稀疏的,那么需要计算嵌套层使用的参数的数量。参照word2vec的Tensorflow教程示例。

· 计算神经网络中边的数量

由于神经网络中参数之间的关系并不是线性的,所以本文基于逻辑回归所做的实证研究并不适合神经网络。但是在这种情况下,可以将10X规则作为训练数据所需数据量的下限。

尽管有上面的问题,根据Malay Haldar的经验,10X规则对于大部分问题还是适用的,包括浅神经网络。如果有疑问,可以在Tensorflow的代码中插入自己的模型和假设,然后运行代码进行验证研究。

作者 孙镜涛 审校:杜小芳

原文链接:http://www.infoq.com/cn/news/2015/12/how-much-training-data-do-you-ne

Via:www.infoq.com

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习如何训练出最终模型

    Jason Brownlee 2017年3月17日 我们用于对新数据进行预测的机器学习模型称为最终模型。 在应用机器学习时,如何训练出一个最终模型这可能是...

    小莹莹
  • 推荐 | 机器学习中的这12条经验,希望对你有所帮助

    源 | 全球人工智能 华盛顿大学 Pedro Domingos 教授的“A Few Useful Things to Know about Machine Le...

    小莹莹
  • 数据科学面临的共同挑战

    弱监督和数据编程可以用来训练模型,不必使用大量手工标记的训练数据。 需要用多少数据来训练模型?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率应该是...

    小莹莹
  • 机器学习如何训练出最终模型

    Jason Brownlee 2017年3月17日 我们用于对新数据进行预测的机器学习模型称为最终模型。 在应用机器学习时,如何训练出一个最终模型这可能是...

    小莹莹
  • 学界 | 谁来拯救集体失灵的NLP模型?

    机器能够像人类一样阅读文档并回答问题,确定某一给定的语句是否在语义上蕴含另一给定的语句,还能处理翻译任务。更重要的是,机器的表现甚至优于人类。

    大数据文摘
  • 人人都可以做深度学习应用:入门篇(下)

    如果这一轮AI浪潮真的会带来新的一轮科技革命,那么我们相信,它也会遵循类似的发展轨迹,逐步发展和走向普及。如果基于这个理解,或许,我们可以通过积极学习,争取成为...

    小时光
  • 机器学习面试的12个基础问题,强烈推荐!

    这些问题是我在面试 AI 工程师岗位时常问到的问题。事实上,并非所有面试都需要用到所有这些问题,因为这取决于面试者的经验以及之前做过的项目。经过很多面试(尤其是...

    Sam Gor
  • 应聘机器学习工程师?这是你需要知道的12个基础面试问题

    这些问题是我在面试 AI 工程师岗位时常问到的问题。事实上,并非所有面试都需要用到所有这些问题,因为这取决于面试者的经验以及之前做过的项目。经过很多面试(尤其是...

    机器之心
  • 机器学习重大挑战:坏数据和坏算法正在毁掉你的项目

    简单来说,由于你的主要任务是选择一种学习算法,并对某些数据进行训练,所以最可能出现的两个问题不外乎是坏算法和坏数据。

    华章科技
  • 滴滴出行场景中语音识别模型的自学习平台化实践

    “数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,敬请咨询期待!

    数据猿

扫码关注云+社区

领取腾讯云代金券