爬虫技术-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

爬虫技术

专栏成员

16

文章

49470

阅读量

35

订阅数

Python从事工商、专利、商标大数据遇到的坑！

渠道代理 php tcp/ip 爬虫数据库

最近在从事数据聚合技术研发工作，刚开始我主要是聚合工商的企业数据源、专利网的数据源、裁判文书网的数据源，刚开始遇到不少的坑，各种验证码、各种封IP等限制。做数据聚合研发首先的技术是Python，因为Python具有很多强大的现存的库可以直接用的，比如: 图像识别库、requests库等，下面就关于模拟请求爬取天某查的整套架构设计+核心代码分享给大家，主要是解决大家在写python爬虫过程中遇到验证码问题、封IP问题、分页爬不完问题、还有爬取的效率和速度问题。

2019-11-19

1.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态