专栏首页开发经验记录一步步编写自己的PHP爬取代理IP项目(一)

一步步编写自己的PHP爬取代理IP项目(一)

第一章节主要给大家普及一下爬虫的概念以及相关的知识,让大家对后面的学习打下扎实的基础。如果你是有经验的开发者,完全可以跳过第一章进入第二章的学习了。

这个项目主要围绕两大核心点展开:

1. PHP爬虫 2. 代理IP

咱们先讲讲什么是爬虫,简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

而我们最常见,用的最多的爬虫就是:百度。

百度就是利用这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,等着你去搜索。

还有各种类型的抢票软件,每一个爬虫都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上买下来。

随着时代的发展,人们发现并不是所有的爬虫都像百度、抢票软件这种帮助到我们的生活,也有许多非法入侵的爬虫,这些爬虫不仅帮助不到我们,甚至会让我们的许多信息泄露。

人们十分憎恨这种爬虫,于是这就诞生了另一门技术,反爬虫。

话说有一天,小明想去电影院看电影,但是不知道看哪一部电影好,于是他想从多个网站爬取一些影评来让自己更好的抉择看什么电影。于是小明写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影下面的影评页面,根据 Html 分析电影名字存进自己的数据库。

但是电影网站的工作人员小红却不乐意了,你用爬虫把我们的影评爬走了,那谁还上我们网站啊,我们怎么卖广告盈利啊。小红发现某个时间段请求量陡增,分析日志发现都是 IP(X.X.X.X)这个用户,并且 useragent 还是 JavaClient1.6 ,基于这两点判断非人类后直接在Nginx 服务器上封杀。

小明发现自己的影评只爬了三分之一就被封了,于是也针对性的变换了下策略,每爬半个小时就换一个IP代理

于是这就涉及到我们项目的第二点,代理IP了。这个词对于一些刚入门的新手们也许有点陌生,其实代理IP我们也可以理解为是一台代理服务器。

代理服务器是介于浏览器和Web服务器之间的一台服务器,当你通过代理服务器上网浏览时,浏览器不是直接到Web服务器去取回网页,而是向代理服务器发出请求,由代理服务器来取回浏览器所需要的信息,并传送给你的浏览器

这样,电影网站的小红就无法识别哪个IP是我们,而我们也可以顺利获取到自己想要的影评啦。(不过实际中还有更多的方法进行爬虫的攻防,这里就不一一讲述了)。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • HTML中css和js链接版本号的用途

    在搜索引擎中搜索关键字 .htaccess 缓存,你可以搜索到很多关于设置网站文件缓存的教程,通过设置可以将css、js等不太经常更新的文件缓存在浏览器端,这样...

    阳光岛主
  • 有趣的AI造脸系列

    这段时间流行AI造脸,先有deepfake在视频伪造中大肆高歌,最近又有类似的AI图片生存网站,不得不说现在的人工智能已经可以实实在在地体会到了。

    doctorrm
  • dedecms 漏洞修复方案及解决网站被黑的办法

    前段时间网站被黑了,从百度打开网站直接被劫持跳转到了cai票,du博网站上去,网站的首页index.html文件也被篡改成一些什么北京sai车,pk10,一些c...

    技术分享达人
  • WordPress网站漏洞检测及漏洞修复解决方案

    2019年正月刚开始,WordPress最新版本存在远程代码注入获取SHELL漏洞,该网站漏洞影响的版本是wordpress5.0.0,漏洞的产生是因为imag...

    技术分享达人
  • Python爬虫入门教程 12-100 半次元COS图爬取

    今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间...

    梦想橡皮擦
  • python 爬虫 | 检查网站情况

    2、识别网站所用的技术 在爬去网站之前,了解网站使用的技术,会对爬去数据有一定的印象。这里使用builtwith模块来探测网上搭建的技术。

    努力在北京混出人样
  • B2B的5种经营模式

      这是一种以买家为中心,专门为某一家公司所设计的采购型网站,它是由买方自己投资建设的。例如像英特尔、沃玛特、IBM、通用汽车、戴尔电脑等。

    用户2192970
  • 2018年国内DDOS攻击数据报告

    通过墨者安全DDoS高防数据显示:2018年国内DDOS攻击事件相比2017年呈翻倍增长,特别是在两会和数博会召开期间,DDOS攻击频率达到上半年的最高峰。下半...

    墨者盾
  • PhpStudy集成环境下载、安装以及配置启动检测

    题外话:个人觉得这是一个挺好的网站,资料挺多,囊括视频和电子文档,值得我们接触一下。

    凌川江雪
  • B2B行业门户网站解决方案

    一、网站定位 1、成为本行业(或某个地域)内处于领先地位的门户网站。 2、成为本行业信息资源,人力资源,商业资源的发布和控制者。 3、利用网站的地位和各项...

    用户2192970

扫码关注云+社区

领取腾讯云代金券