采用python技术爬数据如何解决采集数据IP被封的问题?

破解天眼查爬虫,如何解决采集数据IP被封的问题?

我4个月前用python开发了一套天眼查分布式爬虫系统,实现对天眼查网站的数据进行实时更新采集。网站的数据模块,数据存储结构和他一样,当时的想法是做一个和天眼查一模一样的数据服务平台,然后数据源就通过我的爬虫技术从天眼查实时同步采集。采集天眼查数据需要做的工作准备

1、首先分析目标网站数据模块:

在采用python3写爬虫程序开始爬天眼查的数据时候,首先需要我先分析这个网站有那些数据模块,整个网站有主要核心数据有以下19大模块:1基本信息、2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息、11网站备案、12商标数据、13专利数据,、14 作品著作权软件著作权、对外投资关系、税务评级、行政处罚、进出口信用、企业评级信用等十九个维度的企业数据

2、写一个爬虫demo模型分析网站的页面结构和代码结构

我们模拟http请求到天眼查目标网站,看看天眼查响应的的数据信息是什么样子?

当我们正常访问的时候是可以很轻松得到列表的数据以及进入列表的详细链接,我们在通过链接采集得到每个企业的详细的数据包。

3 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天眼查网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天眼查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

4 天眼查2个亿的数据量怎么存储?需要多少的代理IP

我在写爬虫去爬天眼查的时候,刚开始使用网上的免费或者收费的代理IP,结果90%都被封号,所以建议大家以后采集这种大数据量网站的时候 不要使用网上免费的或者那种收费的IP,因为这种ip几秒钟就会过期,意思就是你没有采集网或者刚刚访问到数据的时候,这个IP就过期了导致你无法采集成功,所以最后我自己搭建了自己的代理池解决了2个亿天眼查数据的采集封IP问题。

5 天眼查网站数据几个亿数据的存储

数据库设计很重要,几个亿的数据存储 数据库设计很重要

我当时花了10天时间吧天眼查爬虫系统全部开发完毕,可以每天爬去百万条数据,19个维度的数据,数据爬下来后主要是数据的存储和管理,数据库的我采用了mongdb,爬虫开发技术我采用了python,几个亿的数据后台管理系统我采用php,我自己架构了分布式架构系统,所以我采集的我采用分布式+多线程+集群的方式,采集速度相当的快!最后整个成果:

爬虫技术推荐可以去 比如csdn 、“it大咖网“公众号、腾讯云这些技术社区都比较不错的(需要交流爬虫技术的朋友欢迎我qq: 2779571288)

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据

API场景中的数据流

原文地址:https://dzone.com/articles/data-streaming-in-the-api-landscape

21600
来自专栏大魏分享(微信公众号:david-share)

理论联系实际 | 自动化运维构建之旅-第二篇

前言: 前段时间,笔者集中发布了自动化运维的一系列文章,偏重于理论和落地方法的讨论,接下来一段时间,笔者将会陆续介绍Ansible Tower的功能演示。为了...

38740
来自专栏JAVA高级架构

饿了么:日订单量超900万的架构设计及演进之路

网站在刚开始的时候大概只是一个想法:一个产业的模型,快速地将它产生出来。“快”是第一位的,不需要花太多精力在架构设计上。在网站进入扩张期才需要对架构投入更多的精...

14220
来自专栏架构师之路

互联网分层架构的本质

上图是一个典型的互联网分层架构: 客户端层:典型调用方是browser或者APP 站点应用层:实现核心业务逻辑,从下游获取数据,对上游返回html或者jso...

461100
来自专栏web前端教室

从零开始学前端,也要注意大局观

一晃零基础web前端课程又讲一周了。 这一周我们都做了些什么呢?一是把json的编辑和获取都过了,然后是使用json来生成dom并绑定相应事件然后添加到页面中。...

21480
来自专栏python开发者

规范化的软件项目演进管理--从 Github 使用说起

规范化的软件项目演进管理 从 Github 使用说起 1   前言 首先,本文的层次定位是:很基本很基础的 Github 工具的入门级应用,写给入门级的用户看的...

27880
来自专栏精讲JAVA

前后端分离实践的架构设计

前后端分离的项目开发策略已经不是什么新鲜东西了,网上介绍这方面的文章非常多。我自己是在14年的时候接触到的,对这种开发策略一直爱不释手,不管新老项目都会首先用前...

16630
来自专栏携程技术中心

干货 | 携程第四代架构探秘之运维基础架构升级(下)

作者简介 本文由携程技术中心框架研发部吴其敏、王兴朝,技术保障中心高峻、王潇俊、陈劼联合撰写。 作为国内最大的OTA公司,携程为数以亿计的海内外用户提供优质的旅...

50990
来自专栏FreeBuf

看我如何发现价值三千美金的Facebook视频缩略图信息泄露漏洞

本文我要分享的是我的一个$3000美金Facebook漏洞发现过程。在我决定对Facebook网站进行安全测试之后,我熟读了很多相关的漏洞发现writeup,发...

16800
来自专栏北京马哥教育

面向容器技术资源调度关键技术对比

摘要:本文以资源分配理念:拍卖、预算、抢占出发,引出Borg、Omega、Mesos、Kubernetes架构、数据、API的特点比较。然后梳理资源共享各种不同...

43470

扫码关注云+社区

领取腾讯云代金券