这个报告于2014年2月在Strate举办,名为《机器学习小精灵》。
在这篇文章中,我们将从Ben的报告中了解一些常见的误区,它们是什么及如何避免陷入这些误区。
在报告之前,Ben向我们展示了一个解决机器学习问题大体流程。
机器学习流程,摘自Ben Hamner的《机器学习小精灵》
这个流程包括如下9步:
Ben强调这个过程是迭代的过程,而非线性的。
他也谈及在这个过程中的每一步都可能出错,每个错误都可能使整个机器学习过程难以达到预期效果。
Ben提出了一个研究建造一个“自动猫门”的案例,这个“门”对猫开放而对狗关闭。这是一个启发性的例子,因为它设计到了处理数据问题上的一系列关键问题。
鉴别狗和猫,摘自Ben Hamner的《机器学习小精灵》
这个例子的第一个卖点就是,模型学习的准确度与数据样本大小有关,并展示更多的样本与更好的准确度之间的关系。
他通过不断增加训练数据,直到模型准确度趋于稳定。这个例子能够很好让你了解,你的系统对样本大小及相应调整有多敏感。
第二个卖点就是这个系统失败了,它对所有的猫都拒之门外。
这个例子突出了理解我们需要解决的问题的约束是非常重要的,而不是关注你想解决的问题。
Ben接着讨论了解决机器学习问题中的4个常见误区。
虽然这些问题非常常见,但是他指出它们相对比较容易被识别及解决。
过拟合,摘自Ben Hamner的《机器学习小精灵》
Ben的《机器学习小精灵》是一个快速且实用的报告。
你将会得到一个关于机器学习常见误区的有用速成学习,并且这些技巧能很容易地用在处理数据的工作当中。
来源:stone数据分析
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!