只有流程和思路,没有代码。 不要用国外的机器跑,秒被封。
一个脚本控制masscan
,20000pps的速率,扫十几个常用的代理端口,随机扫一个A段,大概4个小时扫完。
一个python
脚本,处理masscan的扫描结果,用多线程的去验证每个IP+端口,每次验证要用三种方式轮一遍:HTTP,SOCK4,SOCK5
。验证通过了就是可用的IP。
开4000线程,10秒超时,1次重试,大概1分钟跑1万,masscan
4个小时跑一个A段,能跑出来20万条,这样的话4个小时内python
能循环上12次,因为不一定跑一次就能把可用的IP都验证出来,尽可能的多验证。
基本的原理就是上面,但是还得再复杂点,就是分布式,如果有多个机器 的话,要协同作业。
建立一个proxy.xxx.com
的页面,接收python
脚本验证通过的代理,保存到数据库。masscan
那个不需要特意控制扫哪个A段,随机就行。
有的代理可以用一二年,有的代理一两个小时就失效,所以在proxy.xxx.com
这里还得不停的去验证保存的代理。
只用一台机器跑的话,一天能跑出上千个,甚至几千个。但是我好像还没有同时持有超过1万个过,因为失效的太多,太快。
手里有采集项目的可以搞一下。没项目的话就算了,浪费时间,浪费机器。
另一种直接用网上公开的,关键词:proxy socks5 list