IPProxyPool4月6号更新。。。

大家好,今天完成对IPProxyPool较大范围地更新,主要是根据大家的需求反馈进行的调整。下面说一下更新的主要内容:

1.更新评分机制。

  • 之前的评分机制是刚添加进来每个代理ip为0分,每隔半个小时检测一次,检测之后依然有效则加分,无效则删除。
  • 现在的评分机制是每个新的代理ip分配10分,每隔半个小时检测一次,检测之后依然有效则分数不变,无效则分数减一,直至为0删除,可以避免由于检测网站不稳定导致的误删。

2.用户可以自定义检测函数,在config.py的CHECK_PROXY变量中可以配置。

  • CHECK_PROXY变量是为了用户自定义检测代理的函数,默认是CHECK_PROXY={'function':'checkProxy'}。
  • 现在使用检测的网址是httpbin.org,但是即使ip通过了验证和检测
  • 也只能说明通过此代理ip可以到达httpbin.org,但是不一定能到达用户爬取的网址。因此在这个地方用户可以自己添加检测函数,我以百度为访问网址尝试一下
  • 大家可以看一下Validator.py文件中的baidu_check函数和detect_proxy函数就会明白。 CHECK_PROXY={'function':'baidu_check'}

3.经过大家的共同努力,彻底解决了僵死进程的问题。

由于IPProxyPool项目是通过多进程+协程的方式对代理ip进行抓取和验证的,因此容易出现开启进程较多无法及时销毁的现象,即僵尸进程。经过大家的努力,最终将这个问题进行彻底地解决了,谢谢大家的支持。

下一篇博文,咱们就开始讲解我的另一个开源项目PowerProxy,希望大家多多支持。

原文发布于微信公众号 - 七夜安全博客(qiye_safe)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

创建你的 AI 应用!

你也许会觉得: AI 程序员这么优秀,是因为他们聪明,而我只能笨鸟先飞,勤能补拙喽,当然不是!只要你掌握 AI 程序开发,还怕老板不追着你加工资?!

603
来自专栏逆向技术

逆向知识第八讲,if语句在汇编中表达的方式

           逆向知识第八讲,if语句在汇编中表达的方式 一丶if else的最简单情况还原(无分支情况) 高级代码: #include "stdafx...

2306
来自专栏沃趣科技

Oracle压缩黑科技(三):OLTP压缩

原文链接:https://www.red-gate.com/simple-talk/sql/oracle/compression-in-oracle-part-...

3257
来自专栏小小挖掘机

windows下使用word2vec训练维基百科中文语料全攻略!(一)

训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,...

2666
来自专栏非典型程序猿

你不知道的gRPC反向代理

可用性、可靠性和扩展性是衡量后台服务的基本标准,HTTP反向代理,是任何一个提供大型Web服务后台所必备的,用以提高服务的这些基础参数,且通过支持到负载均衡而进...

7338
来自专栏机器之心

资源 | Parris:机器学习算法自动化训练工具

3339
来自专栏小巫技术博客

Building TensorFlow on Android(译)

961
来自专栏李想的专栏

使用腾讯云“自定义监控”监控 GPU 使用率

本文旨在通过使用腾讯云的“自定义监控”服务来自行实现对 GPU 服务器的 GPU 使用率的监控。

1.1K13
来自专栏marsggbo

tmux 简单介绍

651
来自专栏计算机视觉战队

每日一学——TensorFlow的学习

什么是TensorFlow? TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表...

3508

扫码关注云+社区