前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用superagent、eventproxy与cheerio实现简单爬虫

使用superagent、eventproxy与cheerio实现简单爬虫

作者头像
创译科技
发布2019-06-02 21:10:03
1.5K0
发布2019-06-02 21:10:03
举报
文章被收录于专栏:Node开发

说起Node.js,可能最突出的特点就是它的异步特性。但是对于

初学者来说,要找到一个可以利用的异步场景来进行学习Node.js的异步编程并不容易,而爬虫是最适合用来学习Node.js的异步特性的。可能很多人用过Python,Java做过爬虫,但是其实Node.js的异步特性决定了用Node.js实现爬虫其实会更加轻松。本篇文章就是教大家用Node.js完成一个简单的爬虫:爬取CNode社区首页的所有帖子标题和链接。

Node.js需要使用到三个包:express,superagent,cheerio。

express:Node.js应用最广泛的web框架

superagent:http相关的库,可以发起getpost请求。

cheerio:可以用来从网页中以css选择器方式取得数据。其实可以理解为是Node.js版本的JQuery.

首先,新建一个空文件夹creeper。打开vs code终端。(vs code基本安装及配置文章链接)。在vs code终端进入creeper文件夹。

可以看到,我已经成功创建了creeper文件夹并成功进入。首先在终端使用npm init命令初始化项目

然后使用npm install命令安装express,superagent,cheerio三个依赖。

首先,在app.js文件顶部导入我们刚才所依赖的三个包

到这里项目基本配置完成了,下一步就是写简单爬虫的逻辑代码了

其实实现简单爬虫代码就只需要简单的30行代码。在顶部导入我们依赖的包,底部监听爬虫程序运行于5000端口。中间实现爬虫的逻辑处理。通过app.get定义一个get请求的接口,接口名称/,表示访问根路径,也就是我们测试只需要使用get请求访问http://127.0.0.1:5000就可以访问到我们写的简单爬虫,使用superagentCNode社区首页发起一个get请求,请求成功返回的result中的text存储着CNode网页的内容。然后使用cheerio.load去读取网页内容,然后通过forEach循环逐条去除帖子标题和链接。然后给客户端返回所有取到的帖子标题和链接。这个小爬虫就完成了。我们可以测试下接口能不能正常运行。

可以清楚看到,我们成功爬取到CNode社区首页的所有帖子标题以及链接。并且以json格式返回给客户端。

到这里结束了么?当然没有!别忘了我们这篇文章最重要的是要学习Node.js的异步特性,我们刚才使用superagentcheerio来爬取首页帖子标题与链接,只需要通过superagent发起一次get请求就可以做到了。如果我们想同时取出每个帖子的第一条评论,这时我们就得对上一步取到的每个帖子的链接发起请求,然后依旧使用cheerio去取出第一条评论。Cnode社区首页有四十个帖子,按照逻辑就需要先发起一次请求取到所有的帖子标题和链接,然后对每一个链接在此发起请求,去获得对应的第一条评论。所以我们需要发起41次请求,这就涉及到Node.js的异步特性了。对Node.js比较熟悉的可能会知道使用promise或者generator来解决回调。不过我工作中还是偏向于喜欢直接callback。使用callback进行异步请求,一般有eventproxy或者async两种选择。

eventproxy与async的区别

其实eventproxyasync都是用来做异步流程控制的。如果你爬取的请求小于10次的时候,你可以选择用eventproxy,如果你爬取的请求成百上千的话,那就需要考虑使用async,因为你一次性发起成百上千次请求,原网站可能会认为你是在恶意请求,直接把你访问ip封掉。这时候就可以使用async控制并发请求数量,一次五到十条,慢慢爬取完所有数据。

在这里我选择eventproxy进行异步爬取数据。使用eventproxy需要依赖eventproxy包,所以,首先npm install导入eventproxy依赖。

先把调整好的代码逻辑贴出来:

我们来理下新的逻辑的思路:

首先,在顶部导入我们所需要依赖的包。

superagent.get其实就是之前的操作获得首页所有帖子的链接,但是刚才我们截图可以看到,我们爬取到的链接都是topic/5bd4772a14e994202cd5bdb7类似这种格式,这很明显不是可访问的链接,所以前面要拼接CNode的主链接形成帖子真正可访问的链接

接着,得到一个eventproxy实例

然后我们要发起40次请求就需要用到eventproxyafter方法,after方法适合重复的操作,比如读取10个文件,调用5次数据库等。将handler注册到N次相同事件的触发上。达到指定的触发数,handler将会被调用执行,每次触发的数据,将会按触发顺序,存为数组作为参数传入。

最下方使用一个forEach循环,在循环里通过superagent发起get请求轮流请求帖子链接取得帖子实际内容。然后通过eventproxyemit方法告诉ep实例我本次请求结束了。当40次请求全部结束后eq.after就会执行回调把取到的数据返回客户端。到这里40次并发请求爬取数据成功执行。接下来我们来看看运行效果吧

可以看到成功取到CNode社区首页帖子标题链接,并且通过并发请求取得每一条帖子的第一条评论。当然,这种爬取方式对于超过十次请求的一定要慎用,因为一些大网站会认为你是恶意请求直接封禁你ip,这样就得不偿失了。这样情况下就可以考虑使用async控制并发数慢慢进行爬取数据。

不过在这里就不对async进行讲解了。感兴趣的可以自行去看文档写示例。本篇文章,希望你们能够喜欢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序猿周先森 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档