【技术创作101训练营】2021年战胜机器学习纸老虎-第一周关于模型的思考

原创

到不了的都叫做远方

修改于 2021-01-20 15:15:23

4740

修改于 2021-01-20 15:15:23

文章被收录于专栏：翻译scikit-learn Cookbook

PPT：

演讲文稿：

第一页演讲文稿：

接触机器学习已经3年多，书是看了几本，网课也上了不少节，但由于没有真实应用，还停留在抄代码的阶段，一直没能进步。到了21年立flag的日子，就拿出它来，与自己约定，做一个系列，坚持每周一篇，从学习到应用。

第一周，我想先谈谈我自己对模型的理解。

第二页演讲文稿：

人工智能行业很火爆，感觉尤其是网课特别火爆，感觉AI张口就来，机器人、无人驾驶、机器学习、深度学习、这些词和概念不断被被提及，作为没入门的小白，我也是带着好奇进入了学习，首先我会觉得很有趣的一件事：我，一个人类在学习机器如何学习，像极了套娃。后来我意识到，我们学习机器如何学习，是为了机器能够学习的更出色，然后把任务完成的更好。就好像我们培养一个孩子，然后希望这个孩子，能青出于蓝而胜于蓝。那么这个趋势下，必然会出现劳动的替代、新工作的产生，这都是后话，有一个漫长的过程、但是在前进的路上，变化或许肉眼可见。

第三页演讲文稿：

关于机器学习的定义，还是简单的摘抄后摆在这里，我是从百度百科拿来的，也同时想带出一个问题，科技的进步带来了方便，也带来了信息的爆炸，无数内容的输出，给内容真实性、准确性、有用程度带来了巨大的考验，对自己的判断能力有了更高的要求，我个人认为这就是对决策能力的要求，人们需要一种规则来确定这条信息的准确性、有效性。人类需要、机器同样也需要。这样才能够吸收知识，做更好的判断。所以个人认为：机器学习，在学习一种规则。如同人自己学习，也在学习某种规则，以至于学以致用、融会贯通。

回到这个机器学习的概念，不难看到n座大山，别的先不说，一堆数学名词+复杂感觉就要被劝退。话说回来，学生时代也学了无数门课程，哪一门学的再好，也不是完全掌握，所以首先给自己打气，看到知识多不要怕，直接放弃才可怕，一点一点来，抓住每个部分应该会的，再慢慢深入就好。进一分有一分的乐趣。而且这几年的经验告诉了我，还要看自己将要进入那个领域，经常用哪些、必知必会、其他的作为了解和浅尝辄止。

第四页、第五页演讲文稿：

看书一般讲机器学习，都会祭出第四页这张图，这张图清晰、明确，像一个决策树一样，指引着解决问题的行动方式，也方便理解机器学习的诸多概念，比如第五页这里我写的：监督学习、无监督学习、强化学习、联邦学习、分类、回归什么的，但是我想把这个放在后面讲，先讲讲对模型的理解。之所以上来就想聊聊模型，是为了能够和真实的生活相勾连，不让机器学习模型看起来那么高深莫测，用一种温和的、易于理解的方法，缓慢的走进机器学习的世界。

第六页演讲文稿：

看到第一幅图，相信大家都笑了，这卫生间标志放在这里干什么？哈哈，有同学一下就反应过来，这是一个最简单的分类问题，男女有别，各自进各自的卫生间，两个简单的图标，展示了最简单快速的分类器，毕竟去个洗手间，分清楚自己的性别，分清楚卫生间的分类，去就好了，若是还要分辨半天、那不得急死。而我们可以简单的用数学语言来描述这个分类器，y=1或-1。

看到第二幅图，是3杯啤酒，简单的算术问题，1杯几元钱，那三杯呢？这是一个简单的算式，在生活中非常的常见，这里面包含了一个简单数学模型：y=3*x，我这样写不太合适（为了消除图片和公式的歧义），其实应该让单价为已知数，而杯数为未知数，更符合生活中的数学模型。

通过两个简单的图片，我想说生活中处处是模型，很多肉眼可见，心算即可的模型。

第七页演讲文稿：

但是生活不总是简简单单，复杂的情况比比皆是，请看这两幅图，这是我虚构的一个小例子，想法是看了很多决策树的课件，得出的，比如择偶问题，在原本常理的状态下，构建了精准模型：男择女，女择男，100%正确率的模型，结果出现了小插曲，万一出现了一条“男择男”的原始真实数据，那模型对于男性择偶的正确率就下降到了66%，相对整体下降没这么多，但也不再是100%。可见，对于稍微复杂的问题，或答案不统一的问题，简单的模型就不再适用。

第八页演讲文稿：

为了更好的解决问题，我们就如这张图一样，开始引入更多的特征，试图将事物描述的更清楚，从而增加模型结果的准确程度，但问题接踵而至，简单的模型处理不了复杂的数据，随着增加的特征数量，模型的复杂度也随之上升。于是发现已有无数聪明的大脑早已思考过这些问题，我们便看到了如下的模型：

第九页演讲文稿：

决策树、支持向量机、神经网络、推荐算法、回归分析、聚类分析等等各种各样的模型，并且我们几乎可以用所有的算法来应对我们的数据，得出其相应的结果，但是每一种模型算法，都适用于一定的场景，或者说更加适用于某一种场景，这就需要我们分析问题的能力与解决问题的能力，并且又引入了一个判别问题：哪个模型店效果更好？凭什么说它更好？比其他的模型好到什么程度？人们终究要去解决这个问题。所以大佬们又帮我们找到了不少的解决方案，放在那里，让我们去学习、去突破、去创新。

第十页演讲文稿：

最后，我在这里梳理了一下机器学习的过程，我简单的认为它会经历三个大的过程，再第一阶段，我们遇到了某些问题，需要解决，于是开始想方设法了解它，然后试图去解决它，这时候人们会探寻问题的本质，分析问题、寻找解决方法。到了第二阶段，就是工具的选择，因为如果我们知道了（或许不知道）怎么解决问题，那就需要去寻找更方便、快捷、更好的方法，然后将方法应用到实践当中去。

第十一页演讲文稿：

这里就借助这句“纸老虎”，逐渐的把机器学习这座山，翻过去。我觉得对于我个人而言，需要有以下三个准备：

1、不害怕，不要畏惧学习当中的困难。

2、想明白，在学习的过程中，结合自己的实际多思考。

3、努力学，学以致用，以用促学，勤于实践。

给自己好好打气，也期盼着自己今年的成长！让我们下期见：2021年战胜机器学习纸老虎-第二周决策树-1。

第十二页演讲文稿：

好的，谢谢大家。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

监督学习