Python爬虫-破解天眼查字体库加密-解决封IP-天眼查分布式爬虫

一、破解天眼查封IP问题:

爬取天某查需要解决的第一个技术问题就是封IP问题,因为天某查的技术研发部做了反爬技术防火墙,只要发现你频繁的访问他们的网站就会立刻锁定您IP,然后把您的IP列入黑名单,导致您爬不到数据。所以需要把天眼查接近2个亿的数据爬下来需要切换几十亿IP,消耗大量的IP,解决这个问题很简单,我当时自己建立了自己的高匿名的代理池,这样每一次http请求爬数据的时候都随机切换不同的IP,解决了这个封IP问题,另外目前网上那种IP是不能用的,因为目前网上那种IP都被用过了,几乎爬不了。需要深度爬虫技术和大数据交流朋友加扣扣2779571288或者推荐大家关注公众号“it大咖网” 都是一些更高端的爬虫技术交流。

一、破解天某查“字体库”加密问题:

直到昨天也就是2018年4月24日,用我这套“天某查分布式爬虫系统”的朋友告诉我,天某查自己研发了一套自己的字体库,来解决对抗我们爬虫,防止别人爬去他们技术,这个是最新的一个反爬技术,这样一来导致很多做天某查爬虫技术的朋友面临了绝境。我今天对天眼查的字体库的算法进行了研究,发现“公司的经营范围内容被字体库加密”这套字体库的技术的作用就是,浏览器打开看到的公司经营范围内容被加密解析出来的,我们爬虫采集到的内容是被这个字体库加密过了,导致采集到内容和浏览器眼睛看到的内容不一致,达到混淆爬取不到真实内容的目的。不过幸运的是 通过分析字体库算法和规则终于破解了,这套字体库的加密规则,解决了这个问题。

2017年自己用python写代码开发了一套天某查分布式爬虫系统,实现了把整个天某查所有的数据分布式多线程方式快速爬下来,并且建立了mongdb数据库对这些非结构化的数据进行存储,因为天眼查整个网站数据量很大,爬下来的数据需要进行管理,于是自己又写了一套 大数据应用管理系统,对这些数据进行管理,所以一直对天某查技术的研究!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张善友的专栏

开放的即时通信协议Jabber

很久没有关注Jabber了,这两天比较空闲,关注了一下,发现现在的他很棒了。 Jabber是什么? 是另外一个开放式网络信息通讯工具,她可以跳出各种商业即时聊天...

24970
来自专栏SDNLAB

【双语频道】ONOS架构原理

The purpose of this ONOS talk is to convey the rationale behind our approach to ...

34590
来自专栏SDNLAB

解决方案提供商关注的5大顶级IoT网关

物联网网关 尽管有了数据分析工具,云计算和连接的设备仍然是构成物联网产品的关键,但网关也至关重要。 ? 网关具备设备连通性、协议转换、数据过滤和处理以及安全性等...

30230
来自专栏程序员互动联盟

程序员都用什么编写程序?

说到编写代码的工具说多了多如牛毛,经典的来回也就是几个,现在笔者根据多年的经验列举下常见的编写程序工具。 vim+emacs vim是在linux编写代码的利器...

31570
来自专栏腾讯社交用户体验设计

手机QQ里的注册那些事儿

32230
来自专栏微信终端开发团队的专栏

给创业码农的话--如何提升开发效率

笔者去年从微信团队“毕业”,变成一个创业码农,期间也踩过一些坑,这里与大家分享一些我个人的经验。

79970
来自专栏人称T客

微软何时不再“阳萎” 看Nadella上任一年后憋了哪些大招

微软新任CEO Satya Nadella去年上任时,祭出“移动至上,云端优先”(mobile first and cloud first)的新政策,至今抛出了...

39550
来自专栏前沿技墅

SM人人爱:微服务时代的分布式计算

苏宁易购高级架构师。2006年至今,历任程序员、技术经理、架构师、高级架构师等职,具有十余年研发及技术管理工作经验。早年在日本参与过みずほ银行(瑞穂实业银行)内...

21450
来自专栏FreeBuf

使用第三方库进行软件开发的安全风险研究

如今,很多软件由于长期使用第三方库文件,导致了持续的安全问题。而在程序开发设计阶段,开发者又经常忽略了第三方库代码的漏洞审查,甚至有些资源库(repositor...

35470
来自专栏知晓程序

好奇心日报的 App 和小程序,你会选哪个?

19860

扫码关注云+社区

领取腾讯云代金券