00:00
哈喽,各位小伙伴,欢迎大家来到学习园地,那么本次呢,是我们这个爬虫项目实战课程当中的第一章节,就是关于认识爬虫,那么我们来看一下本次课程当中我们都需要学习的呃内容首先第一个我们要了解一下什么是网络爬虫啊,它到底是什么东西,又为什么叫这个名字啊,第二个呢,是关于web与STP协议的介绍啊,大家需要对这个内容呢做一个了解,第三部分呢,是关于我们爬虫的一个流程和步骤啊,大家呢,去思考和琢磨一下啊,那第四部分呢,就是关于我们本次课程内容的一个环境介绍,那我们先来看第一小节,什么是网络爬虫。如果我们把计算机编程看成是一个魔术的话,那么爬虫就是一个巫术,也就是使用我们的魔术来实现精彩实用却又不费吹灰之力的壮举啊,当然只是一句玩笑话,对吧?啊,那我们对于爬虫的一个通俗解释是怎样的呢?呃,Python的这个爬虫啊,啊是一个呃,完成这样的一个功能,就是说它是从互联网上面去下载数据啊,下载什么数据呢?下载互联网上的数据,下载到我们的本地,并且呢,在这个过程当中呢,我们需要提取出来我们需要的这个呃数据或者信息,呃,或者是这个信息,并且呢,对这个内容呢,进行一个存储,那么完成这样的一个过程或者叫步骤,它就是我们的爬虫,当然了,网络爬虫呢,又被称为一个呃,其他的名字,比如说叫网页蜘蛛啊,网络机器人啊啊,甚至叫网络这个数据抓取啊,啊,这都是一样的,也就是说呃,原理都是一样的,他们都是从互联网上面去下载我们讲的数据啊,然后进行这个数据的提取,然后进行一个存储的过程啊,那么这个整体来说呢,就是按照一定的规则,自动的抓取万人网信息的一个程序或者脚本,那这个就是我们的这个爬虫啊,那么接下来。
01:33
哎,第二章节关于呃,Web与HTP协议,那么首先我们要清楚一点,就是我们在日常的生活和工作当中,我们经常会访问一些网站,比如说百度啊,新浪啊,啊,微博呀啊等等啊,各种各样的页面,对吧?那么我们包括浏览京东啊淘宝这些网站的时候,我们是怎么做的呢?我们在我们的电脑里面,或者说你的手机端里面啊,都是打开了浏览器,那么用这个浏览器呢,去输入一个呃域名地址,比如说百度点com对吧?那么当你跳下回车的一瞬间,那么浏览器呢,就根据你输入的这个叫请求的这个地址啊,哎,向最终的啊,这个远程服务器里面发起一个请求,当然了这个中间过程还比较复杂,比如说他要根据域名啊去找到DNS,然后进行IP的解析,解析完成以后再向远程服务器发起一个过程,对吧?好,那么简单来说呢,就是你的浏览器啊,像远程的这个目标服务器呢,发起了一个请求,那么远程的目标服务器呢,会接收到你这个请求,并且啊,根据你的请求啊,比如说你的请求方式呀,你的请求参数呀,对吧?申。
02:33
是你请求的这个你用的是什么系统啊,平台啊,对吧?然后给你想用内容,那么一般来讲呢,想用的都是源代码,那么这个源代码里面呢,就包含了HD码CS和GS的一些内容,那么把这个内容响应到了我们的客户端浏览器里面,那么在你的电脑里面的这个浏览器呢,就能够解析源代码的信息啊,从而呢,把这个漂亮的页面啊给我们展示出来,所以这就是我们日常生活和工作当中啊,所用到的这个浏览器访问服务器的这样的一个过程啊,其实也非常简单对吧?好,但是在这个里面呢,你要说需要注意两点,第一个是我们的客户端浏览器,是我们自己在用的浏览器,对吧?第二点是那个远程服务器,它在哪,它在啊,开发公司就是比你访问的那个百度公司呀,或者京东那家公司里面对不对,然后在这之间。
03:16
我们有网络的情况下呢,就可以用浏览器访问到对应的那一台服务器,那这个过程它具体怎么实现呢?哎,它用的是HTTP协议,那么HP协议是什么呢?就是我们的超文本传输协议啊,超文本传输协议是什么呢?是专门对这个请求和响应做的一种协议,那么它也是基于pcp与IP的,那么非常简单的理解就是我们的P协议是什么呢?是建立啊我们的客户端与服务器之间的一个连接,完事之后呢,能够向我们的服务器发送一个请求,服务器那边呢,能够接受这个请求,并且呢能响应信息,而且这个响应信息呢,却能够享用到啊,你的客户端浏览器里面啊,那这个就就是指的我们的SDB啊,叫超文本传输协议,那么当然了,这个过程其实也就是我们整个啊web的一个工作原理,也就是说我们呃,用浏览器啊,向远程服务器发了个请求,然后呢,他给我做出一些响应啊,并且能回到我这里,我的浏览器呢,就能做一些解析啊,这个是非常有必要了解的,为什么呢?因为我们呃正常的浏览网页就是这样做的,对吧?那么我们如果用我。
04:17
的爬虫啊,爬虫程序其实模拟的也是这个过程啊,也是说在我们本地的这个脚本当中啊,向远程服务器发个请求,然后呢,他们能够接收请求,并且呢和我们做出一些响应回来啊,所以这个是非常重要的啊,当然也不需要大家去备什么啊,只要你了解这个we部的一个请求过程和ACP协议是什么就够了。好,这是我们第二章节啊,这个第二小节叫做web与HB协议,那么第三小节呢?就是关于我们爬虫的流程与步骤,呃,大家可以想象一下我们如何啊,如何在日常生活和工作当中啊去得到在互联网上面得到你想的内容,对吧?首先第一个啊,就是你要想要什么对吧?比如说我我想搜一个百度的这个,呃,比如说搜一个美女的图片,那么这个美女的图片你要到哪个网站上面啊,能够得到这个信息对吧?啊然后呢,你需要的这个,比如说这个美女图片啊,他是这个穿着性感一点还是暴露一点对吧?还是保守一点,还是古典一点对吧?啊,那可能有不一样的需求,所以第一部分呢,主要就是要确定一下需求,确定需求以后,第二部分我们要寻找需求,那比如说我刚才说啊,什么是需求呢?比如说我要一个美女的普遍对吧,这就是需求,那么寻找需求呢,就是说你要的这个美女的图片,他应该啊,符合或者说符合你要求的这个数据啊,他应该在哪个网站上面应该有啊,我们可以到百度呀,新浪啊,或者是其他的这个咨询类的各种互联网的网站上面呢,去寻找我们的这个呃数据啊,它所在的这个原地址在什么地方,对吧?所以第二部分呢,叫做寻找需求,那么。
05:43
寻找完需求之后干什么呢?哎,我们要看观察一下这个啊,网页上面,呃,它是怎么摆放的,在哪个位置对吧?啊,这个图片的链接地址啊,最终在哪里对不对啊,这个是都是寻找需求的一个过程啊,寻找和分析的过程,那么接下来当我们把这些信息确定以后,第三步做什么呢?哎,第三步就是我们的爬送程序就可以启动了,我们就可以向你的目标源地址发送一个网络请求,然后呢?啊,他会给我们做出响应,对不对,响应回来的内容是一个源代码,所以就到了第四步,我们要从这个啊,这个非常繁多的这个源代码当中啊,去解析啊,或者要提取出来我们所需要的数据啊,你不是全部都要,对吧?我们只要一些关键节点的数据,那么这才是我们有用的,或者说对我们来讲呢,是有用的,那么这个时候呢,我们把这些有用的数据啊,都分别的提取出来,那么就到了第五步,把这个提取的数据啊存储起来,我们是可以存到数据库啊,还是写入文件都可以啊,所以我们总结来说呢,华成的这个流程步骤非常简单,第一步就是确定需求,第二步寻找需求,第三步发送请求,第四步根据请求得到的这个响应内容。
06:43
啊,进行数据的解析,第五步进行数据的一个存储啊,所以爬虫的流程步骤呢,也是非常简单的,好呃,那么接下来我们看一下呃,我们本次课的内容啊,所需要的一个基本的环境吧,好,首先第一个关于你的系统,那你的系统呢,你使用的是linus或者是Windows或者是MAS系统啊这都没有关系,因为我们整整个Python呢,它可以在呃任意的这个呃这个系统环境当中啊呃去使用啊,所以呢啊没有太大的要求啊,另外一个呢,呃就是关于我们的Python的版本。
07:12
本次课程内容呢,我们的呃课程呢,主要是基于Python3.7来进行一个讲解,那么其实呢,你只要用到啊Python3.4以上啊,或者3.5以上,3.6啊,这都没有问题啊,当然现在也是,呃,新出了这个PY成3.8也可以去使用啊,但是呢,PYTHON2点几就不需要了,因为这个他们两个之间呢,呃,这个版本差异还是比较大的,之间呢互相不做兼容啊,所以呢,我在课程当中演示的时候,可能使用的是拍3.7啊,但是大家呢,只要是3.5级以上啊,应该问题就不大啊,没有什么问题好然后另外一个呢,就关于我们这个脚本的编辑啊啊,我们选择的IDE呢,你可以用PAR姆,呃,可以用萨姆啊,甚至用not特加加啊等等其他的啊,甚至什么web STEM啊,这都可以啊,没有呃特殊的要求,那么在我这个咱们课程的过呃讲解过程当中呢,啊,我使用的系统嗯,可能以麦CS为主,也可能会用到Windows,那我用了的呃,Python呢,主要就是3.7,然后呃ID呢,我可能会用到拍,也可能会用到S啊也主要是告诉大家,其实这些对我们来讲呢啊要求都没有特别高,也没有特别注意的地方,对吧,大家。
08:12
它只需要啊,版本基本上对路就可以了啊,因为我们的整个拍摄环境呢,也是非常友好的对吧?好那么这个呢,是我们的一个环境介绍,在后面的这个陆续的课程当中啊啊进行当中啊,如果还有一些特殊的版本说明啊,我会在讲解的过程中啊啊再明确的告诉大家,好,这是关于我们本次课程内容的一个基本介绍,好感谢各位小伙伴。
我来说两句