python爬虫-2018那年我破解了天眼查

2017年我自己写代码开发了各种爬虫系统,喜欢破解各种网站验证码,cookie加密,采集数据被封ip技术,从事了5年多php和python技术研发工作,破解过天猫、淘宝、天眼查、企查查、启信宝等各种网站的数据爬虫技术工作,随着互联网技术的发展,大数据和人工智能成为当前的风口,大数据和人工智能是未来的趋势和方向,于是技术也从互联网技术扩展到大数据技术,关于爬虫技术,从事爬虫工作有不少的心得,希望能够给其他的朋友分享一些个人的经验和心得。以下从天眼查、天猫、淘宝等个种网站的数据采集面临的技术和如何快速的得采集到整个网站的数据而且不受限制和封号。(需要爬虫技术交流的朋友欢迎加我qq:2779571288)

最近在自己用python+mongdb写了一套分布式多线程的天眼查爬虫系统,实现了对天眼查整个网站的全部数据各种维度的采集和存储,并且根据天眼查网页的数据结构建立了30个表来存储30个维度的数据,很多做技术的朋友在爬天眼查的时候会遇到以下几个问题,我把我的经历和解决方案分享给大家。

1、天眼查和启信宝哪一个的数据更难爬呢?

     其实在准备爬天眼查数据的时候,我对启信宝、企查查类似的网站分布从数据的完整性和数据的更新及时性分析了,结果个人觉得天眼查的数据比其他网站的要完整,数据维度要多一些,数据更新的时候也比较快,所以最后选择了爬取天眼查里面的企业数据。

天眼查的30个核心数据维度:

首先整个网站有主要核心数据有以下30大模块:1基本信息、2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息、11网站备案、12商标数据、13专利数据,、14 作品著作权软件著作权、16对外投资关系、17税务评级、18行政处罚、19进出口信用、20企业评级信用等十九个维度的企业数据,如果把这些数据爬下来,并且结构化,实现可以查询可以检索使用,可以导出到excel,可以生成企业报告,那么需要建立数据库来存储这些数据,像这种非结构化的数据我们选择mongdb数据库是最合适的。

  1. 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天眼查网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天眼查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

4  天眼查2个亿的数据量怎么存储?需要多少的代理IP

 我在写爬虫去爬天眼查的时候,刚开始使用网上的免费或者收费的代理IP,结果90%都被封号,所以建议大家以后采集这种大数据量网站的时候 不要使用网上免费的或者那种收费的IP,因为这种ip几秒钟就会过期,意思就是你没有采集网或者刚刚访问到数据的时候,这个IP就过期了导致你无法采集成功,所以最后我自己搭建了自己的代理池解决了2个亿天眼查数据的采集封IP问题。

5 天眼查网站数据几个亿数据的存储

 数据库设计很重要,几个亿的数据存储 数据库设计很重要

 我当时花了10天时间吧天眼查爬虫系统全部开发完毕,可以每天爬去百万条数据,19个维度的数据,数据爬下来后主要是数据的存储和管理,数据库的我采用了mongdb,爬虫开发技术我采用了python,几个亿的数据后台管理系统我采用php,我自己架构了分布式架构系统,所以我采集的我采用分布式+多线程+集群的方式,采集速度相当的快!(需要爬虫技术交流的朋友欢迎加我qq:2779571288)

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

谷歌:云计算平台将带来autoscaling服务

11月19日消息:谷歌是于本月举行的Cloud Live会议,并在本次会议上首次宣布将推出谷歌IaaS基础架构服务Compute Engine云计算平台带来的a...

3354
来自专栏带你撸出一手好代码

把网站做成软件

刚接触电脑那会,对软件的了解不如现在来的深切 ,那时候软件两个字在我脑海中的概念就是通过搜索引擎搜索结果或直接在浏览器地址栏中输入网址进入获取我需要的软件的网站...

3438
来自专栏云计算D1net

灾难恢复即服务(DRaaS)如何为最终用户提供保护?

灾难恢复即服务(DRaaS)正在成为数据中心最流行的方法之一,不仅可以加强其灾难恢复策略,而且还将成为通用数据保护的一种方法。它可以快速,高效和频繁地备份应用程...

3338
来自专栏ThoughtWorks

如约而至|2018年5月期技术雷达正式发布!

ThoughtWorks每年都会出品两期技术雷达,这是一份关于技术趋势的报告,由 ThoughtWorks 技术战略委员会(TAB)经由多番正式讨论给出,它以独...

1091
来自专栏WeTest质量开放平台团队的专栏

阻击外挂:《龙之谷手游》安全测试的那点事

手游的使用场景与传统APP有着巨大的差异,不同的游戏玩法, 技术实现都不一样,因此手游安全测试团队需要对每一个游戏,都从零开始研究游戏内部实现架构。近期腾讯推出...

1.2K0
来自专栏IMWeb前端团队

2015上海Qcon总结——Hybrid App监控与极限优化

感言 终于有时间停下来来回顾一下2015上海Qcon分享《Hybrid App极限优化解决方案》旅途。不喜欢总结,往往是比较痛苦的,些许时间之后回过头来,发现部...

2009
来自专栏WeTest质量开放平台团队的专栏

Android P Beta发布!最新版本抢先体验!

为了让广大开发者第一时间体验Android P Beta的新功能特性,提前为您的app进行良好适配,WeTest已将平台上所有Android P DP1系统机器...

1766
来自专栏PPV课数据科学社区

干货 : 聚焦于用户行为分析的数据产品。

因为工作需要,我的收藏夹里收集了很多数据相关的产品,其实加入收藏,也一直没有时间好好去研究。这几天恰好有时间翻出来逐个体验了番,顺手贴出来,大家一起研究。 受篇...

5118
来自专栏WeTest质量开放平台团队的专栏

Android 9.0 震撼来袭 同步登陆WeTest

? WeTest 导读 2018年8月7日,Google对外发布最新 Android 9.0 正式版系统,并宣布系统版本Android P 被正式命名为代号“...

1344
来自专栏WeTest质量开放平台团队的专栏

WeTest功能优化第1期:截图960px,云真机映射功能了解

截图小?放大模糊?无法清晰匹配问题?No ! WeTest 960px的高清分辨率截图来啦。960px很厉害么?当然,你可要知道之前测试报告里的截图分辨率最高...

1207

扫码关注云+社区

领取腾讯云代金券