首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫-2018那年我破解了天某查

2017年我自己写代码开发了各种爬虫系统,喜欢破解各种网站验证码,cookie加密,采集数据被封ip技术,从事了5年多php和python技术研发工作,破解过天猫、淘宝、天某查、企查查、启信宝等各种网站的数据爬虫技术工作,随着互联网技术的发展,大数据和人工智能成为当前的风口,大数据和人工智能是未来的趋势和方向,于是技术也从互联网技术扩展到大数据技术,关于爬虫技术,从事爬虫工作有不少的心得,希望能够给其他的朋友分享一些个人的经验和心得。以下从天某查、天猫、淘宝等个种网站的数据采集面临的技术和如何快速的得采集到整个网站的数据而且不受限制和封号。(需要爬虫技术交流的朋友欢迎加我qq:2779571288)

01

分享-python爬虫遇到封IP+验证码+登陆限制,如何解决?

现在国家在鼓励做大数据、全面进行数字化中国建设,很多企业包括很多有前瞻性的创业人都开始进军大数据,各种根据自己的擅长领域开始储备数据源,我们需要做大数据第一步就是利用网络爬虫技术解决数据源聚合问题。我2018年主要利用python3+mysql+cookie池+代理IP池自己研发了一套AI智能深度数据挖掘系统,主要是解决企业工商数据源、商标数据源、专利数据源、招标中标数据源、土地数据源、食品药品数据源等多种国家开放的数据源的聚合。当时在做企业工商数据源聚合挖掘时候遇到了封IP、验证码、还有会员登陆等等各种反爬机制,最终我通过各种技术方式解决了所有问题,下面将分享一下个人的一些经验。

05
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    应急响应-战后溯源反制&社会工程学&IP&ID追踪&URL反查&攻击画像

    (1) 百度信息收集:“id” (双引号为英文) (2) 谷歌信息收集 (3) src信息收集(各大src排行榜) (4) 微博搜索(如果发现有微博记录,可使用tg查询weibo泄露数据) (5) 微信ID收集:微信进行ID搜索(直接发钉钉群一起查) (6) 如果获得手机号(可直接搜索支付宝、社交账户等) 注:获取手机号如信息不多,直接上报钉钉群(利用共享渠道对其进行二次工作) (7) 豆瓣/贴吧/知乎/脉脉 你能知道的所有社交平台,进行信息收集 (8) 其他补充 在github,gitee,开源中国中查找 在社交平台上查找,(微信/微博/linkedin/twitter) 技术博客(csdn,博客园),src平台(补天) 在安全群/安全圈子里询问。

    01

    IPV4和IPV6

    现有的互联网是在IPv4协议的基础上运行的。IPv6是下一版本的互联网协议,也可以说是下一代互联网的协议,它的提出最初是因为随着互联网的迅速发展,IPv4定义的有限地址空间将被耗尽,而地址空间的不足必将妨碍互联网的进一步发展。为了扩大地址空间,拟通过IPv6以重新定义地址空间。IPv4采用32位地址长度,只有大约43亿个地址,估计在2005~2010年间将被分配完毕,而IPv6采用128位地址长度,几乎可以不受限制地提供地址。按保守方法估算IPv6实际可分配的地址,整个地球的每平方米面积上仍可分配1000多个地址。在IPv6的设计过程中除解决了地址短缺问题以外,还考虑了在IPv4中解决不好的其它一些问题,主要有端到端IP连接、服务质量(QoS)、安全性、多播、移动性、即插即用等。

    02

    论文查重门道多,选择平台需谨慎

    导语前两天看到一篇文章,说“我的论文被卖了”,目前论文查重服务水太深,并且已经形成了一定规模的产业,暗渠密布,各种骗局和信息安全问题层出不穷!原理就是当你把论文上传之后,有些网站可能自己做一个备份,然后倒卖,也有可能网站是被黑客攻击导致信息泄露,然后他们通过专业人士对论文做一些修改再转手出卖。所以当你修改好论文准备提交的时候,你会惊奇的发现有一篇跟自己极其类似的论文在不久前已经发布了。这种问题想想都可怕,所以出于正义我准备把这些网站找出来,给大家提个醒。我找了两个还算权威的论文查重网站“调查”了一番,发现他们真的有信息泄露漏洞,以下就是我挖掘的整个过程。

    03
    领券