在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中看到的一些机器学习项目的常见误区。
这个报告于2014年2月在Strate举办,名为《机器学习小精灵》。
在这篇文章中,我们将从Ben的报告中了解一些常见的误区,它们是什么及如何避免陷入这些误区。
在报告之前,Ben向我们展示了一个解决机器学习问题大体流程。
机器学习流程,摘自Ben Hamner的《机器学习小精灵》
这个流程包括如下9步:
Ben强调这个过程是迭代的过程,而非线性的。
他也谈及在这个过程中的每一步都可能出错,每个错误都可能使整个机器学习过程难以达到预期效果。
Ben提出了一个研究建造一个“自动猫门”的案例,这个“门”对猫开放而对狗关闭。这是一个启发性的例子,因为它设计到了处理数据问题上的一系列关键问题。
鉴别狗和猫,摘自Ben Hamner的《机器学习小精灵》
这个例子的第一个卖点就是,模型学习的准确度与数据样本大小有关,并展示更多的样本与更好的准确度之间的关系。
他通过不断增加训练数据,直到模型准确度趋于稳定。这个例子能够很好让你了解,你的系统对样本大小及相应调整有多敏感。
第二个卖点就是这个系统失败了,它对所有的猫都拒之门外。
这个例子突出了理解我们需要解决的问题的约束是非常重要的,而不是关注你想解决的问题。
Ben接着讨论了解决机器学习问题中的4个常见误区。
虽然这些问题非常常见,但是他指出它们相对比较容易被识别及解决。
过拟合,摘自Ben Hamner的《机器学习小精灵》