腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
爬虫技术
专栏成员
举报
16
文章
49470
阅读量
35
订阅数
订阅专栏
申请加入专栏
全部文章(16)
爬虫(10)
数据库(9)
大数据(9)
sql(6)
tcp/ip(4)
数据挖掘(3)
php(3)
网站(3)
http(3)
企业(2)
ICP备案(1)
渠道代理(1)
python(1)
html(1)
云数据库 Redis(1)
api(1)
金融风控(1)
存储(1)
缓存(1)
压力测试(1)
selenium(1)
数据结构(1)
https(1)
搜索文章
搜索
搜索
关闭
Python从事工商、专利、商标大数据遇到的坑!
渠道代理
php
tcp/ip
爬虫
数据库
最近在从事数据聚合技术研发工作,刚开始我主要是聚合工商的企业数据源、专利网的数据源、裁判文书网的数据源,刚开始遇到不少的坑,各种验证码、各种封IP等限制。做数据聚合研发首先的技术是Python,因为Python具有很多强大的现存的库可以直接用的,比如: 图像识别库、requests库等,下面就关于 模拟请求爬取天某查的整套架构设计+核心代码分享给大家,主要是解决大家在写python爬虫过程中遇到验证码问题、封IP问题、分页爬不完问题、还有爬取的效率和速度问题。
孔雀
2019-11-19
1.5K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档