首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【杂谈】深度学习必备,各路免费爬虫一举拿下

【杂谈】深度学习必备,各路免费爬虫一举拿下

作者头像
用户1508658
发布2019-07-28 14:21:45
1.2K0
发布2019-07-28 14:21:45
举报
文章被收录于专栏:有三AI有三AI

1 综述类项目与学习资料

首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。

1、awesome-spider

地址:https://github.com/facert/awesome-spider

这是ID为facert的一个知乎工程师开源的,头像如下,鉴定为大佬。

star6000+,内容如下:

这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。

2、Nyspider

地址:https://github.com/Nyloner/Nyspider

这是ID为Nyloner的一个今日头条的工程师弄的,头像如下:

star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。

3、awesome-python-login-model

地址:https://github.com/CriseLYJ/awesome-python-login-model

这是ID为CriseLYJ(职业不详)的用户,头像如下。

这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。

先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。

4、python-spider

地址:https://github.com/Jack-Cherish/python-spider

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,这个头像很学生。

star6000+,包含不少的实战项目,非常适合想学习的朋友。

其他还有一些项目,不再一一介绍。

https://github.com/jhao104/proxy_pool

https://github.com/Ehco1996/Python-crawler

2 优秀图片/视频项目

笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。

工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。

1、Google,Baidu,Bing三大搜素引擎图片爬虫

地址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫由ID为sczhengyabin的用户整理,看头像就知道不好惹。

可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:

使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。

可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。

这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。

2、各大视频网站爬虫

地址:https://github.com/iawia002/annie

由ID为iawia002的用户整理,看头像来路也不简单。

Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:

虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:

annie [可选参数]http://… (视频网址)

视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。

不行了,我要去看狐妖小红娘了,今天就到此为止吧。

点击边框调出视频工具条

对了,有三AI刚刚开源了一个深度学习项目,如下:

https://github.com/longpeng2008/yousan.ai

内容包含计算机视觉,语音,自然语言处理,支持caffe,tensorflow,pytorch,mxnet,paddlepaddle,darknet,deeplearning4j,matconvnet,keras,chainer,cntk,lasadge等框架,大家可以看我们的介绍文章。

总结

要说互联网圈里最有权势的那些人,搞爬虫的高手一定位列其中,他们大概是掌握信息最多的那批人了,善于整合抓取资源,如果身边有这样的大佬,一定要牢牢抱着。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档