我们来了解一下爬虫的概念,那爬虫的话呢,它到底是什么东西呢,可能有一些
朋友会稍微的听过,比如说我要去爬取什么视频,图片啊,或者是像小说,那实际上
我们这个爬虫的话,它就是什么模拟浏览器发送请求获取响应,那网络爬虫呢,它又
称之为网页蜘蛛,或者还有个名称就是网络机器人,实际上就是模拟什么,模拟我们
这个客户端,那客户端一般主要是指这个浏览器,就去发送网络请求,然后呢,发送
请求以后呢,它会有一个东西给他就资源,接收我们这个获取到的响应,然后,就是
按照一定的规则,自动的去爬取我们这个互联网上信息的一个程序,所以这就是爬虫。
那么原则上来说的话呢,爬虫的话呢,只要是客户端能做的事情,就爬虫都能做,
所以的话,他也只能获取我们这一个浏览器展示出来的数据呢,它的特点是什么呢?
首先啊,我们写一下有爬虫,爬虫概念,就其实比较简单,就是什么模拟浏览器
牛奶器,然后呢,发送请求获取响应,因为正常用户去上网浏览的时候,是不是都需
要干嘛打开浏览器,然后去搜索,去搜索吗,我比如说我要搜索什么爬虫,我直接输
入爬虫就行,他下面的话呢,就会有相对应的一些页面出来,浏览器想然后我们要获
取里面特定的一些数据,那么再去进行解析即可,那这个爬虫的话,只能获取我们这
个客户端所展示出来的数据,那你像有一些数据,他可能隐藏了,就是有一些网站呢,
他不想被你看到的数据,就用另外一种手段去获取。
它的特点是知识碎片化,碎片化,因为当你们在一开始接触这个网络世界的时候,
你要去浏览最多的可能是百度,或者说还可以去浏览其他网站,那么每一个网站,它
是不同的,它都是有区别的所以你们在写爬虫的时候会干嘛,就比如说,我这个爬虫
程序呢,可以去爬百度,但是我可能去爬,比如PA优酷它就不行啦,因为他每个网站
它的结构它都不同,那么所以我们要相对应的去分析所以在爬虫里面的话,最重要的
其实是分析网站,它会面对各种,各种各样的,各种a写下各样的什么网站,然后每个
网站它都是不同的,每个网站都是有区别的,都是有区别的。
比如我们可以去爬取这个网站,再换一个网站就发现不行了,就是因为他们都是
有区别的,包括响应内容,它的里面一些数据结构也是不同的,那你像还有一个我们
自己打开一个,比如说浏览一个网页去查看一个音乐链接吗,那么我们去爬取这个音
乐链接,他跟爬寻乐放到自己网上它是不同的就是说并不是说我们浏览器上那个URL
的链接,就一定是我们要去发送请求的那个链接。
那么我们为什么要去模拟浏览器呢,就是因为正常来说,他们主要范围是正常的
用户,所以模拟客户端他在干嘛,就操作者的话,它是正常的用户,正常的用户,那
么我们作为爬虫的一个身份,服务器它是不欢迎我们的,大家也都不想自己自己创建
的网站被别人把数据都爬去到对不对,所以的话我们要尽可能的去模拟正常的用户发
送请求,所以这个就是我们这个爬虫,那相对来说,我们作为一个爬虫者的话呢,拔
出程序的话,我们是要去爬取数据吗,就是我们要做的事情,写一下他会是什么模拟
客户端访问,相应的要去抓取数据,这是我们要做的事情,那相对应的做网站那个角
色的话,你要去爬,我就不能让你爬到嘛,所以呢,相应的一个什么反扒。
反扒的话,它主要是什么,就补重要的数据,补重要的数据阻止一些恶意的攻击,
恶意网络攻击,也就是什么,就是一般像比如说如果识别到请求次数过多,是一个爬
虫程序的话,那么就会封IP或者说拒绝访问,所以这里大家注意,当然相对应的就人
家反爬了,就你有反爬的措施没关系,我还有什么反反扒,反反扒,写一下反反扒,
反扒是相对于反扒做出的测试好针对什么,针对我们这个反扒做的措施,措施,所以
这里的话呢,就是我们这个爬虫的概念。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有