IPProxyPool4月6号更新。。。

大家好,今天完成对IPProxyPool较大范围地更新,主要是根据大家的需求反馈进行的调整。下面说一下更新的主要内容:

1.更新评分机制。

  • 之前的评分机制是刚添加进来每个代理ip为0分,每隔半个小时检测一次,检测之后依然有效则加分,无效则删除。
  • 现在的评分机制是每个新的代理ip分配10分,每隔半个小时检测一次,检测之后依然有效则分数不变,无效则分数减一,直至为0删除,可以避免由于检测网站不稳定导致的误删。

2.用户可以自定义检测函数,在config.py的CHECK_PROXY变量中可以配置。

  • CHECK_PROXY变量是为了用户自定义检测代理的函数,默认是CHECK_PROXY={'function':'checkProxy'}。
  • 现在使用检测的网址是httpbin.org,但是即使ip通过了验证和检测
  • 也只能说明通过此代理ip可以到达httpbin.org,但是不一定能到达用户爬取的网址。因此在这个地方用户可以自己添加检测函数,我以百度为访问网址尝试一下
  • 大家可以看一下Validator.py文件中的baidu_check函数和detect_proxy函数就会明白。 CHECK_PROXY={'function':'baidu_check'}

3.经过大家的共同努力,彻底解决了僵死进程的问题。

由于IPProxyPool项目是通过多进程+协程的方式对代理ip进行抓取和验证的,因此容易出现开启进程较多无法及时销毁的现象,即僵尸进程。经过大家的努力,最终将这个问题进行彻底地解决了,谢谢大家的支持。

下一篇博文,咱们就开始讲解我的另一个开源项目PowerProxy,希望大家多多支持。

原文发布于微信公众号 - 七夜安全博客(qiye_safe)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小巫技术博客

Building TensorFlow on Android(译)

1301
来自专栏逆向技术

逆向知识第八讲,if语句在汇编中表达的方式

           逆向知识第八讲,if语句在汇编中表达的方式 一丶if else的最简单情况还原(无分支情况) 高级代码: #include "stdafx...

2456
来自专栏非典型程序猿

你不知道的gRPC反向代理

可用性、可靠性和扩展性是衡量后台服务的基本标准,HTTP反向代理,是任何一个提供大型Web服务后台所必备的,用以提高服务的这些基础参数,且通过支持到负载均衡而进...

1.4K9
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 1 - Hello, TensorFlow!

在学习任何新的编程语言时,我们都会在第一时间完成Hello World,以宣告自己开发环境的完美搭建。TensorFlow也不例外。TensorFlow充分考...

3563
来自专栏Java3y

操作系统第五篇【死锁】

2624
来自专栏计算机视觉战队

每日一学——TensorFlow的学习

什么是TensorFlow? TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表...

3668
来自专栏黑白安全

Pentest Box 简单使用教程 渗透测试盒子

顾名思义,这是一个渗透工具包,但是不同于绝大多数国内 xx 工具包的是,这里集成的大都是 Linux 下的工具, Kali Linux 上面的常用的很多工具这里...

1642
来自专栏向治洪

TensorFlow下载与安装

TensorFlow简介 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意...

30310
来自专栏北京马哥教育

4KB 扇区磁盘上的 Linux:实际建议

为何更改为 4096 字节扇区? 如果您熟悉磁盘结构,就知道磁盘是被分解成扇区 的,大小通常是 512 字节;所有读写操作均在成倍大小的扇区中进行。仔细查看,就...

3358
来自专栏用户2442861的专栏

Tesseract:训练

http://www.zmonster.me/2015/05/05/tesseract-training.html

891

扫码关注云+社区