专栏首页一番码客找python爬虫小项目?github给你准备好了!

找python爬虫小项目?github给你准备好了!

本文目录

前言

GitHub搜索技巧awesome-spider

前言

即使我们都是程序员,但我们也并非都会修电脑,都会做酷炫的ppt,都会优化系统卡顿。其实程序员也是分行业、分专业的,就像医生也分内外科、呼吸科、神经科神的。

作为非专业的python选手,或者非专业的爬虫选手,即使我们有一些编程基础,有时想通过代码从网上获取一些信息,也不能徒手就能做,需要借鉴一些成熟的方案、代码。

这就是为什么GitHub现在这么流行的原因。作为小白的一番,今天找到一个非常不错的爬虫收集项目,推荐给大家。

GitHub搜索技巧

网上也有一些分享的再github上搜索项目的技巧,其实,很多都是从官方文档来的。所以,我们想真的精通Github搜索,那么就去给官网链接上查吧。

  • GitHub帮助中心:『https://help.github.com/en/github/searching-for-information-on-github/searching-on-github』

如果觉得英文看着吃力,这里一番也找到一个部分翻译的文章:

  • github 项目搜索技巧-让你更高效精准地搜索项目:『https://www.cnblogs.com/suwanbin/p/12113751.html』

比如,我们要搜爬虫相关的,2020年1月1日以后还有更新的,stars数超过100的,可以用这样的命令:

in:description spider pushed:>2020-01-01 stars:>100

再选择一下排序,会得到这样的结果:

awesome-spider

  • awesome-spider:『https://github.com/facert/awesome-spider』

这其实是一个整理收集爬虫项目的项目,对于一番开篇说的非专业爬虫小户来讲,可以发现很多实用的项目。

不得不说,资源整合的能力有时比创造资源更重要。

我们来看下它收集了哪些项目,有没有你感兴趣的?

点击“阅读原文”可以在原文里点击相关链接可以直接跳转。

A

  • 暗网爬虫(Go)
  • 爱丝APP图片爬虫

B

  • Bilibili 用户
  • Bilibili 视频
  • Bilibili 小视频
  • Bing美图爬虫
  • B站760万视频信息爬虫
  • 博客园(node.js)
  • 百度百科(node.js)
  • 北邮人水木清华招聘
  • 百度云网盘
  • 琉璃神社爬虫
  • Boss 直聘
  • 贝壳网找房爬虫

C

  • cnblog
  • caoliu 1024

D

  • 豆瓣读书
  • 豆瓣爬虫集
  • 豆瓣害羞组
  • 豆瓣图书广度爬取
  • DNS记录和子域名
  • DHT网络磁力种子爬虫
  • 抖音
  • 抖音推荐

E

  • E绅士

G

  • Girl-atlas
  • girl13
  • github trending
  • Github 仓库及用户分析爬虫
  • 国家统计用区划代码和城乡划分代码爬虫

H

  • HDOJ爬虫

I

  • Instagram
  • INC500 世界5000强爬虫

J

  • 京东
  • 京东搜索+评论
  • 京东商品+评论
  • 机票
  • 煎蛋妹纸
  • 煎蛋妹纸selenium版本
  • 今日头条,网易,腾讯等新闻
  • 计算机书籍控图书
  • JK (制服写真) 爬虫

K

  • 看知乎
  • 课程格子校花榜
  • konachan

L

  • 链家
  • 链家成交在售在租房源
  • 拉勾
  • 炉石传说
  • leetcode
  • 领英销售导航器爬虫 LinkedInSalesNavigator

M

  • 马蜂窝 用户足迹
  • MyCar
  • 漫画喵 一键下载漫画~
  • MM131性感美女写真图全爬取
  • 美女写真套图爬虫 (一)(二)(三)
  • 妹子图
  • 猫眼网电影评分

N

  • 新闻监控
  • 你好污啊

O

  • ofo共享单车爬虫

P

  • Pixiv
  • PornHub
  • packtpub
  • 91porn

Q

  • QQ空间
  • QQ 群
  • 清华大学网络学堂爬虫
  • 去哪儿
  • 前程无忧Python招聘岗位信息爬取分析
  • qqzhpt美女写真爬虫/批量下载

R

  • 人人影视
  • RSS 爬虫
  • rosi 妹子图
  • reddit 壁纸
  • reddit

S

  • soundcloud
  • Stackoverflow 100万问答爬虫
  • Shadowsocks 账号爬虫
  • spider163 网易云音乐爬虫
  • 时光网电影数据和海报爬虫

T

  • tumblr
  • 下载tumblr喜欢内容
  • TuShare
  • 天猫双12爬虫
  • Taobao mm
  • Tmall 女性文胸尺码爬虫
  • 淘宝直播弹幕爬虫(node)
  • 天涯论坛文章
  • 天眼查爬虫

V

  • Youtube字幕下载
  • 视频信息爬虫
  • 电影网站

W

  • 乌云公开漏洞
  • 微信公众号
  • “代理”方式抓取微信公众号文章
  • 网易新闻
  • 网易精彩评论
  • 微博主题搜索分析
  • 网易云音乐
  • 新.网易热评
  • 唯品会商品

X

  • 雪球股票信息(java)
  • 新浪微博
  • 新浪微博分布式爬虫
  • 心灵毒鸡汤
  • 闲鱼最新商品爬取

Y

  • 英美剧 TV (node.js)

Z

  • ZOL 手机壁纸爬虫
  • 知乎(python)
  • 知乎(php)
  • 知网
  • 知乎妹子
  • 自如实时房源提醒
  • 中国大陆高校列表爬虫
  • 站酷(zcool.com.cn)图片爬虫

#

  • 80s 影视资源爬虫 - JianSo_Movie

其他

  • 各种爬虫
  • DHT 爬虫
  • SimDHT
  • p2pspider

一番雾语:不要成为一名程序员,成为一个问题解决者!

本文分享自微信公众号 - 一番码客(efonfighting),作者:Efon-fighting

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 简单使用了下scrapy爬虫工具

    前天一番写了《用爬虫看看我们工作的”前途“》,里面收集了52job上在深圳的”前端“和”区块链“两个关键字的职位信息。

    efonfighting
  • python实现pdf批量转换为图片

    今天有一番码客的读者朋友让一番帮个小忙,需要把pdf转换为图片,而且是四十多个pdf。

    efonfighting
  • pdf转word?一个强大的pdf处理工具!

    很多小伙伴问我能不能帮忙把pdf转换成word,之前一番都只能抱歉的说,目前还没有合适的免费方案,一番技术能力有限,自己也不能实现。

    efonfighting
  • 最全Python爬虫:微信、知乎、豆瓣,一次“偷”个够!

    WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字...

    BestSDK
  • 【程序源代码】python爬虫

    多种电商商品数据爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。通过每个项目的 readme,了解爬取过程分析。对于精通...

    程序源代码
  • 辟谣错误的爬虫说法,使用正确的爬虫姿势

    那篇文章的故事中提到的,是一家名为「巧达数据」的公司,如果之前有关注过相关新闻的朋友应该不难发现,这个公司实际上在3月份的时候就已经被查封了!

    Python猫
  • Java 网络爬虫,该怎么学?

    在后面的几年工作中,也参与了好几个爬虫项目,但是大多数都是使用 Python ,抛开语言不谈,爬虫也是有一套思想的。这些年写爬虫程序,对我个人的技术成长帮助非常...

    黄泽杰
  • 爬虫篇 | Python爬虫学前普及

    最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.

    叫我龙总
  • 如何给爸妈解释什么是“爬虫”?

    前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?

    数据森麟
  • 初识爬虫

    郭楷丰

扫码关注云+社区

领取腾讯云代金券