前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GitHub上有哪些优秀的爬虫项目?

GitHub上有哪些优秀的爬虫项目?

作者头像
Python进击者
发布2019-06-21 16:05:15
3.8K0
发布2019-06-21 16:05:15
举报
文章被收录于专栏:JAVAandPython君JAVAandPython君
1

写在前面的话

今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!

2

福利开始喽!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

很全面的反爬虫项目大全:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

2. awesome-spider

网址:https://github.com/facert/awesome-spider

这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!

3. Nyspider

网址:https://github.com/Nyloner/Nyspider

这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址,和本人的工作有关。

4. awesome-python-login-model

网址://github.com/CriseLYJ/awesome-python-login-model

这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。

5. python-spider

网址:https://github.com/Jack-Cherish/python-spider

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

6. Google,Baidu,Bing三大搜素引擎图片爬虫

网址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。

3

END

想要更快的提升自己的爬虫技术,单单把基本的知识学完是远远不够的,而是要多去实战,这些案例非常的优秀,大家都可以按照他们的写法去写一遍,这样更有利于大家爬虫技术的提升!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python进击者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3. Nyspider
  • 4. awesome-python-login-model
  • 5. python-spider
  • 6. Google,Baidu,Bing三大搜素引擎图片爬虫
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档