Python渗透测试工具：百度url＆代理ip多线程加队列采集

文章来源：企鹅号 - Python新世界

前言

python是门简单易学的语言，强大的第三方库让我们在编程中事半功倍，今天，我们来谈谈python在url采集和代理ip采集中的应用。本文将实现一个百度url采集器和一个代理ip采集加验证有效性脚本，这两个脚本均已完善。

一、python实现url采集

依旧是多线程加队列的写法，运行稳定，速度较快，采用argparse模块处理命令行参数，支持自定义线程数、页数、保存文件位置等run起来看看效果：

速度还是可以的，亲测win和linux下均可运行

关于url采集这块，其实是非常有用的，最近很火的st2-045，我们完全可以利用url采集器采集.action关键词然后导出到一个txt文件，然后将exp修改成读取文件并且批量验证（不要做违法的事情。。出什么事概不负责，仅仅是单纯的技术分享）

这样，我们-u xx.txt，就可以对url采集器导出的txt的url进行批量验证了（完整的批量脚本就不发了，各位也不要问我要，注意，不要搞事情，洞别人早就刷的差不多了，发出来仅仅是提供批量检测漏洞的思路，完全可以应用到其他漏洞上去）仅仅是技术交流，请不要用于违法的事情上，本人概不负责。。

还是说一下采集脚本简单的思路吧，抓取表单页面上的目标连接的href值（百度搜索页面上并不是直接显示真实目标链接的），再向href值发出连接请求，得到真实的url，print在屏幕上并导出到自定义文件.

[size=18.0000pt]二、python实现代理ip采集及验证有效性

多线程加队列来实现，源码：

run起来看看：

上图是抓了一小会抓到的几个有效代理ip，因为目前就一个接口，就没用argparse来处理命令行参数，直接run就可以了，后续有时间了完善脚本。

得到了有效代理ip有什么用呢？当然有用了，大家知道，有些网站有防护措施，当我们直接用御剑之类的工具去扫描，服务器可能会ban掉我们，而拉黑了之后就访问不了网站了，很心塞。

其实这种会“拉黑你”的网站的防护措施很简单，当一个ip在某段时间内发出请求的频率过高时，就会ban掉你的ip。而现在，我们有了代理ip，就可以不停切换代理来进行扫描目标网站，不用担心被拉黑了。之前的python探测目录脚本放出来过了核心代码：

我们可以将代理ip文件读出来，然后修改：

就可以简单地绕过ip频率限制啦。

总结：

两个小脚本分享给大家了，不是很难

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货