虽然我以前也曾提到过这件事,因为我真的很爱表情包。我花了很多时间与朋友和家人聊天,表情包是必不可少的,否则在屏幕上看起来就会很平淡。?
我喜欢的另一件事是数据科学。我越了解机器学习算法,将这些科目组织在我的大脑中并随时能想起来就越有挑战性。
一开始我并没有打算要做一个速查卡,也没有打算制作表情符号。但是,在关于这个问题的研究中的一些想法让我开始制作表情速查卡:
1、目前很难找到一个比较好的机器学习速查卡。如果你有好的速查卡,请分享!
2、我找到的机器学习速查卡里的内容基本都没有揭示如何实际使用算法。
3、我找到的那些速查卡看起来并不好玩!我是一个视觉要求较高的人,有一个回归框,一个分类盒子和一个聚类盒子对我来说很有意义。
制作这张速查卡就像建立一个模型。我最初认为根据学习类型将算法分类是最有意义的,但意识到算法之间有很多重叠,所以那也不可能做到。
一旦我决定根据类型将它们划分开,就会明显地发现有多少分类算法。这让我想起许多数据科学问题是基于分类的,而且这些分类都是根据分类器的规模与其他类型的相比。
如果您了解此表上的所有内容,可以随时记住它们,那么就无需再往下看了。如果不能,下面我将我的逻辑过一遍。
关于表情符号的注意事项:虽然这些表情符号都是经过我认真挑选的,但我希望您可以抛开我的选择任意想象,因为您可能会获得与我所选择的理解不同的理解,无需在这个问题上面纠结。
学习类型
最初,我只是对监督,无监督和增强学习有一点了解,但有人向我提出要求要给它们添加一个框架,使它们相互之间有所不同。开玩笑地说,监督和无监督的学习就像没有人在乎一样被抛在脑后。当你提出这些概念时,确保你知道它们的意思。
回归
许多方法人们都说是“基础数据科学”,但回归确确实实是基础数据科学。尤其是线性回归,您在其它背景中会可能不断接触到它,但没有意识到它被用于数据科学。
分类
我做过很多视觉设计,这可能是我最为自豪的一个。我认为这个速查卡传达了很多重要的信息,并且真正意义上表达出我正在试图完成什么。从学习类型的范畴开始 - 很明显,神经网络是复杂算法的女王,但是拥有的权力越大,责任也越大。
速查卡中的表情符号是我精心挑选的。对每一个表情的挑选,我都可以说出我的逻辑,但是这就要花很长时间了。 随机森林真的是他们中最不重要的(但也是我最喜欢的)。
此外,还有朴素贝叶斯还有至少三种方法可以用sklearn处理。
聚类
聚类是数据科学的一个非常有用的子集,跟分类很像,但不完全相同。 因此,它需要有自己单独的一张速查卡。我用泰迪熊来表示。
降维
我添加了这个部分,是因为我对算法本身做的研究越多,我越意识到减少特征是最关键的。 我在项目中就遇到过这个问题,如果有数据科学家没有遇到过,我会感到惊讶。
我们的*通配符*部分
数据科学中还有一些比较重要的事情,可能我们刚刚沉浸在了数据科学中自己完美的世界里,但是一个3-D速查卡也很重要。
1.偏差-方差权衡是将数据科学描述为艺术的最基本要素 - 您必须在创建的模型的噪声数据和有偏差但方差较低的数据之间取得平衡。
2.欠拟合/过度拟合 - 这与bvt类似,但您需要确保有足够的数据,不要过度拟合,并使模型具有足够的描述性来进行标准化。
3.惯性因子- 熵,其最简单的形式。
4.我们用分类讨论了很多关于上面的四个方法 - 我认为重要的是要知道我们真正在谈论什么。
那就是这样吧! 请随意使用这个速查卡或与其他觉得它有帮助的人分享。请妥善保管好。
如果发现错误或者认为我遗漏一些重要的东西,请在Twitter(http://twitter.com/emilyinamillion)上与我讨论这个问题,或者给我发电子邮件(http://www.emilyinamillion.me/contact)。
END.
PPV课小组译 转载需申请授权
原文连接:
http://www.emilyinamillion.me/blog/2016/5/30/the-making-of-a-cheatsheet-emoji-edition