00:04
大家好,今天。提到的是用罗杰斯来入门一下爬种,简单的进行一下入门,然后。接下来我们先来。看一下目录,目录是。这些分为什么是爬虫?为什么要有爬虫?首先我们来看一下。什么是爬山?爬虫就是程序像爬虫一样在互联网中各处休止的模仿人的进行访问。获取自己想要的一些信息。然后为什么要有爬虫。首先。我们我们使用的搜索引擎啊,也也是使用。嗯,爬虫。来去拿取一些关键字,关键词,然后在我们搜索的时候,然后进行匹配。
01:00
然后聚合信息,就比如说。嗯,一些网站,然后他嗯需要去扒去一些。呃,各个平台上的一些数据,然后去在自己的站点上。距今聚合的显示。然后自动化测试,自动化测试的话就是可以使用爬虫,然后去定期的去。进行一些操作和取,然后去检测页面是否显示正常。然后操作是否,嗯成功。然后大数据分析,大数据分析的话,比如说像去分析一些,嗯。嗯,一些数据,比如说嗯,一些招投标数据啊,什么数据之类的,可以去进行爬取,爬取之后,然后进行一些分析。然后是怎么去做一个爬虫。
02:04
嗯,主要我们写爬虫的时候,可能会遇到两种类型的页面。嗯,首先一种类型就是你去。嗯。右键查看源代码的时候,然后在源代码里。可以看到你想要爬雪的数据。那么这样的话,我们就可以在嗯使用代码,然后将它的页面的HTML下载下来,然后去。嗯,去正则,或者是用一些别人封装好的一些库去把。想要的那些数据给提取出来。然后或者是嗯。你查看源代码的时候,发现数据不在里面。那么他有可能就是后期通过接口去拿到数据,然后用GS进行渲染,这样的话你爬虫刚进去的话。你下载下来了一天的代码,就是最原始的嗯框架,所以你无法看到,这样的话,你可以通过嗯去拿他的接口,然后去请求他接口去拿数据。
03:14
然后。或者是可以使用一些,嗯,无缝浏览器去。模拟浏览器操作去。拿取数据。那首先我们来介绍的就是通过。嗯,你在页面里可以通过右键查看源代码,然后去拿取数据的情况。可以用。嗯,那如何去写。嗯。这里介绍的方法就是可以通过HTP请求,然后去把它的网页下载下来,网页HTML源码下载下来,然后再通过。他这个库,然后可以通过一些。
04:02
结合的语法,然后去选取指定的。呃,然后。去指定的一些节点,然后去拿取他节点下的数据。嗯,这里我们来介绍的就是在一个新闻网站。有多?然后这块的一个数据,我怎么去爬,它首先就是先。我们可以先看到这句话。然后去他的。野马东。你搜索。大家可以看到。可以直接在源代码里看到这段数据说明,我们就可以去通过。嗯,下载上验证码的方式,然后去拿到。然后我们再通过,嗯,F12。
05:02
然后去。找到他。这块数据它的。变器。然后选择器也不需要自己去写,然后可以通过。自带的复制。嗯。富士康的选择器啊,拿到这个整个这个列表的。然后我们在代码中的话。嗯。如果可以。在这里去选择所有的这个标题。然后先介绍一下代码,代码的话主要就是去。选择。想要的数据,然后像用G的话,它就是一个at请求的一个,然后可以通过它去发送at请。
06:09
然后这里的话。我先。通过个去拿到。请求他的页面,然后去。拿到他的。一天没等我,让我在使用全给加载。然后再去。便利。我们刚才。要这块的列表里的标题。然后去。取出每个标题。嗯,在这里的话,我们就可以运行一下看。
07:00
可以看到我们已经把我们想要的这个。标题给扒下来。然后我们怎么去使用的话,如果你。嗯,没有接触过那个角色的话,我们可以去先去。安装它的环境,可以直接去搜索那个键。嗯。这个也行。然后直接下载对应的。安装包就可以,然后直接就双击安装。弄完之后,然后可以通过。命令好。与查看是否安装成功。
08:02
然后如果初始化项目的话,就是你新建一个文件夹。用了文件夹之后,按住shift键,再加右键。然后去打开。喂,你好,然后输入。来初始化项目。然后再去安装我们想要的。安装的依赖,比如说像刚才的用来发一些信息,然后。
09:01
这个刚来丝的话,就是把它给保存到我们刚创建的特点。那下次。再去安装的话,他就可以读取他你安装的100。让你安装成功。然后你就可以在里面创建。文件,然后在里面去。然后运行的话就。你在刚才的。去运行。然后。面。
10:01
那么下面介绍的就是。如何使用?右键去查看源码,发现源码中没有想要的数据的话。那么我们可以使用。接口方式或者使用无通浏览器的方式,跟你的话介绍一下。我们使用无痛带器去拿取数据的。你。比如说我们。Peace port or playwright。嗯,今年主要介绍就是朋友去爬去。嗯,比如说我们去先去看一个页面。嗯。我们可以先尝试用。方法。你看来。在右键源码里能不能去。
11:05
我们看到了并没有这个数据。说明他在后期通过接口去。去,过去。通过这个接口。然后拿到之后去渲染到页面上,所以他从第一次去下载源码的时候是拿不到的。
12:06
那这样的话,我们可以直接通过去。请求接口。紧着这个接口,然后去拿。想要肉,或者是假如碰到一些复杂情况下,也可以使用去。嗯,像刚刚的那些无头器,然后去抓取,然后我们先先介绍是怎么用。与。我们在这里的话,主要需要安装一下这个依赖。等安装这个依赖的时候可能会碰到。可能会碰到安装比较慢的一些情况。这样的话我们可以去。
13:01
送你一个。导入NTM这个文件,然后去把它的镜像设置成淘宝镜像。那话我再去。安装的时候。你上面啊,有。那领会就是。不会,不会报错。因为他这个安装的时候,他会下载一个。嗯。的一个。浏览器。那你也可以不想这个。这种自带浏览器的版本也可以使用奥,然后去指定你本地的。
14:02
我浏览器这样也可以。这样的话我们就进一步安装。然后。我们可以看到。首先我们可以去。开启的问题。嗯。这句话意思主要就是。去打开无愁。模式,浏览器模式主要就是你。运行的时候它不会。桌面上去打开一个浏览器,然后让你能看到。一个操作,然后是直接在后台去跑。浏览器。然后我再去通过这一这这这一段代码,然后去打开一个新页面。然后去访问我们刚刚的这个网址。
15:02
然后。嗯,页面加载。然后这时候我们就他就已经把我刚刚那个接口听听数据,然选了页面了。然后我们再去拿。我们想要的数据。也是通过选择器方式,你像。你们想拿去什么时候,然后就去。同学,富士康的选择题。然后复制到这里。通过。嗯,可以通过这个啊,然后在里面去执行。Yes。然后选择到我们想要的那些。然后组成我们想要的一些格式,然后去返回。返回的话。也可以拿到。
16:04
这里们现在的运行。那种开启了无头模式,然后就可以让他在后台去,然后去抓到。控制台这上面打印的可能有点问题。他们这个。就像。啊。啊,我们可以先试一下。关闭它模式,这样的话,我们运行的时候,它会打开一个浏览器。
17:02
打开览去访问这个页面,然后抓到之后我们可以通过。可手把有关闭,那话我们的出去也就错。具体更多的像。API的话可以去访问。访问他们的项目。然后去。进入他们的文档去查看。具体一些AR的投入。然后接下来我们再来介绍一种。就是可以。嗯,就假如我们可以拿到接口,然后就可以直接通过接口去如何去拿数据,这里的话我们主要介绍一下。一家社区的评论,我们如何去拿?
18:04
比如说我们在营销社区这个文章下面有很多评论。我想把他们全扒下来。那如何做呢?然后我们可以在先试用一下。第一种方法,我现在源代码里看看。那里有那个。所以他应该就是通过接口的方式。那请求过来。我们可以在。那他的意思应该就是获取评论的。那你的话他就可以。你看到。我刚刚看到。
19:06
然后他这样的话,我们可以看到这个里面有它的总的总的数量。然后。以及当前页的一些参数。这样的话,我们就可以通过程序去。模拟的去爬去。感觉我已经写过了一段例子。那我们主要使用我们刚刚介绍的那个那个图。报的库,然后去。
20:00
好,我们刚刚的。然后我们这里可以看到,我们先去把它的接口链接先过来,我们可以。也要观察一下它的结果。首先它是一个破的请求。然后去请求这个接口,然后会带上一些参数。然后这个的话就比较固定,然后底下是文章的ID,然后当前一页,然后页面。多少内容?这样的话,我们就可以把这些参数给带下。嗯。S的话,测试的话,如果太高的话,它接口就不返回,所以就直接用它默认的十个。然后。这个就代表分页,第几页我们可以使用负循环。
21:02
血液循环给它加上。嗯。然后我们再。都可以去。进行循环请求,然后直到列表为空的时候去跳出这个循环就行。然后每次循环拿到数据。格式。就像这样。我只要把历史的数据拿过来,然后去组装。对,放在一起,然后去。拼装一下。然后到这里的话。问题是主要是通过它的注册时间。我可以对他。一个排序就是一个。然后到这里的话,主要就是将我拼装好的这些数据传到文件。
22:00
贴地文件。那我们可以先去。我下这个。因为我是每个接口都是等他。请求完之后,然后再去进行下的作用,可能会比较慢。这个写法过于简单。我们可以看到我们已经把刚才的。
23:03
嗯,那些数据给爬取下来,那并且是按照。注册时间的。来进行排序。然后。再进行一些扩展,比如说我们遇到一些登录情况,然后或者是需要验证码的一些情况来。登录的话,我们就可以使使用,然后去进行模拟的输入,然后去登录。然后如果要验证码的话,可以使用一些担保平台进行付费。然后去。识别码。或者通过自己的。方式也可以,比如说遇到一些图形的一些验证码的话。
24:04
嗯。字母数字一些验证码了,可以使用OCR。你把图片传上传上去,然后调用一些VR接口去识别。然后或者是滑动验证码的话也可以使用。嗯啊之类的一些库,然后去模拟。滑动上面的滑块。然后如果你去爬雪,因为过于频繁,嗯。呃,服务器会。对一些异常的流量进行异常流量IP进行封禁,这样的话你可以。什么?主要还是可以使用IP池,然后去使用一些免免费的一些IP。去进行办理。或者可以付费的使用一些稳定的一些IP。
25:06
那接下来是一些要注意的一些事,比如说。你使用爬虫去爬取一些别人的一些信息。呃,个人信息一些东西可能会出现的法律问题。然后。尽量避免去爬取一些像音乐视频之类的。然后他们。可能会造成一些。嗯,版权问题。然后。就是你代码的爬爬,你的爬虫不要写了。他去,他过于频繁。然后不要去操作的过快,然后这样的话可能会把。夫妻。干爆了。
26:02
哦。最后就是爬虫有利有弊,很希望能合理的运用。
我来说两句