00:00
哈喽,欢迎各位小伙伴来到学习园地啊,那么本次学题学习园地呢,给大家推出的重宝课程拍神爬虫项目时代,我是本次课程的讲师,我叫一双,欢迎各位小伙伴,那么这次课程内容呢,我们先给大家去介绍一下我们课程当中所要学习的一些啊主要内容,那么本次课呢,主要分为了四个部分,其中第一部分呢是关于爬虫的一些介绍,我们要了解一下什么是爬虫啊,以及网络请求相关的一些内容啊。第二个呢,就是关于网络请求中的request这个库,那么也就是说我们如何用网络的Python程序啊,像这个浏览器一样发起一个网络请求来得到我们一些数据啊,这是非常知名非常流行的一个库,然后第三部分呢,是数据解析,实战数据解析的话,就是说我们在呃,Request库当中发起的一些请求,得到一些数据,但是这些数据呢,非常多,非常乱哈,然后呢,在这个里面呢,我们想提取一些我们对我们有用,或者说我们需要的这些数据,那么这个时候我们需要用到数据解析,数据解析呢,也是我们拍摄当中非常具有特色的这么一个东西啊,因为它的方法非常灵活,比如说常见的正则,可能在任何语言里边都有啊,当然我们Python也存在,对吧?啊,但是除了正则以外,我们还可以有其他的方式来解析我们的数据,比如说叉pass或者是数。
01:00
这是我们数据解析的一些啊,这个主要的内容哈,然后呢,会在课程当中带给大家,然后第四步呢,叫做爬虫进阶,爬虫进阶呢,其实我们也把它称为叫啊开挂的爬虫,因为这里面主要给大家讲,讲的主要还是更多的如何提高我们爬虫的一些程序的这个效率啊,那这样的话啊,在课程学完以后呢,大家可以说几分钟的这个时间呢,能爬个十几这个几万到十几万的数据是没有问题的啊好,这是我们爬虫基节的一些内容,好那么接下来我们就挨个看一下啊,首先第一章我们爬虫介绍主要给大家去讲解的是什么是网络爬虫,Web与HP协议介绍,爬重的流程步骤啊,以及环境的介绍哈,然后第二部分呢,是关于网络请求,网络请求当中啊,主要给大家讲解的是request库的一个基本使用它的get和post的一个请求,包括如何使用代理和处理货币信息等等这些内容啊,这也是非常重点的,因为这个关乎着我们是否能够成功的发起请求来得到一个呃网页的源代码数据啊,这个是非常重要的啊。然后第三部分呢,是关于数据解析,这里面呢,主要给大家讲解的三种方案,第一种是使用我们这个叫参pass,然后数据解析,因为这个是比较方便,比较灵。
02:01
的一种方式啊,然后呢,这里边还顺带着有些这个文章啊,一些内容的一些爬取,然后第二个呢是贝和速度啊数据解析,贝特夫速度也称简称为BS4,它也是我们拍摄当中啊非常知名的一个库,可以快速的解析我们的数据啊,然后呢,这里面也会有一些实代,然后第三个呢,就是关于R1正则,R1正则呢在任何语言都有啊,这里面呢,也会重点的给大家去介绍啊,那么讲完以后呢,也会有一个项目的案例带给大家,总之关于这个数据解析呢,我们主要讲解三种数据解析的方式,而且也是我们本次课程重点讲解的方式,那么包括它的安装,它的使用,它的介绍,然后包括它的实战开发啊,那么都会带给大家,希望各小伙伴在学完以后呢,能够多去做练习啊,那么以便更快速的掌握这几种方案。好了,那么接下来看第四章,就是关于爬送进阶,我们称为叫开挂的爬通,因为这里面呢,主要还带带大概的就是关于效率的提升,比如说这里面前面第一个是poose的请求,因为有些时候呢,我们既可以发概率请求,也可以发post请求,那么有些请求数据的post啊,会带给我们更更大的一些方面,比如说有道翻译啊,那么如果我们能够以post向他发请求的话,就会得到。
03:01
和它的一个接口,那么接口中呢,就能帮我们去解析,帮我们完成一个呃翻译的这么一个解析,而且它得到的是一个监测数据,我们处理起来呢啊也非常方便啊,这个里面呢,我们会带给大家啊,看一下如何用Python自己呢去呃借助有道来做一个这样的翻译工具。然后第二个呢,是代理IP,以及代理IP数据的爬取,就是因为这个如果你一个网站的话,他如果想对你做一些反制措施方法,嗯,其实禁用你的IP是最有效的一个方案,这个时候呢。我们就需要有其他的方法来进行应对,代理IP呢,是一个最简单最直接最有效的一个方式啊,代理IP可以隐藏你自己的IP,然后来帮我们完成操作,然后这个里面呢,会详细的给大家介绍一下代理IP的原理啊,以及代理IP数据的爬取,如何获取一些免费的这个代理IP,当然了免费的呃代理IP呢非常多,但是它不见得挨个都好用,所以这个时候呢,还会给大家去看一下如何去验证我们的IP是否好用,然后呢,第三部分呢,就是给大家讲解的关于数据啊,这个分页数据的排序,因为网络上的数据呢啊,一页当中啊,就是一屏当中呢,它显示的数据量有限啊,可以去做一些分页,比如说。分个几十页,上百页甚至上千页啊都有可能,那么这个时候我们想盘取更多的数据的话啊,这个时候需要对他们分页数据进行一个处理啊,那也是非常方便非常好用的一个东西哈,那么这个里边呢,会给带给大家啊,如何去做一个分页数据,然后另外一部分呢,就是关于多进程与多线程,包括进程词与线程池的一个使用啊,那么这个里边呢,其实说白了就是为了提高我们的一个呃爬虫的效率,因为正常情况下啊,你一个呃项目启动完成以后呢,就是腾讯一直在单个的运行,它单进程的运行情况的效率肯定还是呃还是不算特别高的哈,那么这个时候如果你能用多进程或者说开启多个线程共同的来执行我们这个程序的话,那你这个效率非常高,那么之前的话,我在线下的班级当中带着学员做的这样的一个多进程或多线程的这样一个开开发,基本上的话就是五到十分钟之内啊,可以爬个十几万的数据,然后进到你的硬盘里边是没有问题的啊,这个是很方便的啊啊然后呢,后面还会有两个实战,第一个是关于百度图片的排序,那么我们能够做到自动下载。
04:53
比如说你输入一个关键词叫美女对吧,然后呢,这个程序呢,就会到百度的图片上面去爬取美女的图片,然后呢,根据你的要求的页数给你查取到对应的数据,并且呢把它下载下来啊,这是我们百度图片的爬取,然后呃,另外一个实战豆瓣电影爬取呢,就是豆瓣它是一个呃,算是一个评论的这样的一个这个中心嘛,基本上我们看一些电影啊,或者说读一些书的话,可以喜欢到这个豆瓣上面去看一下啊,影评啊书评对吧?然后呢,这个豆瓣电影自己也去做了一些这个,比如说排行榜啊等等这些内容,那么在这里面呢,会给大家去讲解一下如何爬取多瓣电影的数据啊,那么它排行榜的这个淘宝250,也就是250个数据,那么它是250个数据的话,它是每一页显示25个,一共是十页,那么这个里面呢,给大家去讲解的啊,就是如何快速的爬序,当然了,最后的话就是希望各位小伙伴呢,能够根据这样的一个案例啊,加上多进程或多线程来达到啊,自自己动手来达到这个,呃,就是就是进一步的封装,然后呢,完成这个项目要求啊好了,那么这个这样的话就是整体我们课程的一个介绍啊,那么感谢各位小伙伴的支持与信任啊,希望各位小伙伴在我课程的。
05:54
讲解过程当中啊,如果有什么问题啊,大家欢迎啊,及时的这个提问啊,包括评论啊都没有问题,然后呢,另外一个就是希望要求各位小伙伴呢,在学习过程当中一定要多加练习啊,我们都这么讲吧,我给你讲了以后,这个内容呢,你能否掌握住,还是要看你的练习程度啊,或者说如果我给你讲解清楚了,但是你依然不会用的话,这个可能就是练习的少一点啊,所以希望各小班呢能够啊多多动手,多多去敲一敲代码,然后呢多去分析一些问题,那这样的话呢,才能把我们爬冲的这个内容啊给挡握住好了,那么这是我们本次课程内容的一个介绍啊,那么后面的话,我们就开始给大家去讲解一下这个相关的课程内容,希望各小伙伴能够喜欢,好了,我们下节课再见。
我来说两句