专栏首页七夜安全博客IPProxyPool4月6号更新。。。

IPProxyPool4月6号更新。。。

大家好,今天完成对IPProxyPool较大范围地更新,主要是根据大家的需求反馈进行的调整。下面说一下更新的主要内容:

1.更新评分机制。

  • 之前的评分机制是刚添加进来每个代理ip为0分,每隔半个小时检测一次,检测之后依然有效则加分,无效则删除。
  • 现在的评分机制是每个新的代理ip分配10分,每隔半个小时检测一次,检测之后依然有效则分数不变,无效则分数减一,直至为0删除,可以避免由于检测网站不稳定导致的误删。

2.用户可以自定义检测函数,在config.py的CHECK_PROXY变量中可以配置。

  • CHECK_PROXY变量是为了用户自定义检测代理的函数,默认是CHECK_PROXY={'function':'checkProxy'}。
  • 现在使用检测的网址是httpbin.org,但是即使ip通过了验证和检测
  • 也只能说明通过此代理ip可以到达httpbin.org,但是不一定能到达用户爬取的网址。因此在这个地方用户可以自己添加检测函数,我以百度为访问网址尝试一下
  • 大家可以看一下Validator.py文件中的baidu_check函数和detect_proxy函数就会明白。 CHECK_PROXY={'function':'baidu_check'}

3.经过大家的共同努力,彻底解决了僵死进程的问题。

由于IPProxyPool项目是通过多进程+协程的方式对代理ip进行抓取和验证的,因此容易出现开启进程较多无法及时销毁的现象,即僵尸进程。经过大家的努力,最终将这个问题进行彻底地解决了,谢谢大家的支持。

下一篇博文,咱们就开始讲解我的另一个开源项目PowerProxy,希望大家多多支持。

本文分享自微信公众号 - 七夜安全博客(qiye_safe),作者:七夜

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Scrapy爬取美女图片第三集 代理ip(上)

    七夜安全博客
  • linux无文件执行— fexecve 揭秘

    之前的文章中,我们讲到了无文件执行的方法以及混淆进程参数的方法,今天我们继续讲解一种linux无文件执行的技巧,是后台朋友给我的提醒,万分感谢,又学到了新的东西...

    七夜安全博客
  • python基础教程第二课

    七夜安全博客
  • 【Lighthouse教程】网页内容抓取入门

    网页内容抓取(Web Scraping)是指通过网页抓取工具(即Web Crawler,亦称网页爬虫)对指定网页进行设定行为的自动访问,并进行数据分析提取、最终...

    溪歪歪
  • pythonGUI -- pyside安装与初试

    Python自带了GUI模块Tkinter,只是界面风格有些老旧。另外就是各种GUI框架了。

    lpe234
  • 最新工具Galaxy mothur Toolset (GmT) ——Galaxy平台整合Mothur分析流程

    GigaScience是华大基因和生物医学中心共同创办的生物学期刊,2012年7月正式发行。目前IF:7.267

    生物信息知识分享
  • Git - git push origin master 报错的解决方法

    KangVcar
  • Python工作中代理IP的重要性!

    目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。

    青果云小潘
  • python3安装解决ssl问题

    使用yum命令报错File "/usr/bin/yum", line 30 except KeyboardInterrupt, e: 问题出现原因:

    py3study
  • Python工作中代理IP的重要性!

    目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。

    青果网络

扫码关注云+社区

领取腾讯云代金券