Node.js 小打小闹之爬虫入门

阿宝哥

发布于 2019-11-05 16:08:36

1K0

发布于 2019-11-05 16:08:36

文章被收录于专栏：全栈修仙之路

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。此外爬虫还可以验证超链接和 HTML 代码，用于网络抓取。

本文我们将以爬取我的个人博客前端修仙之路已发布的博文为例，来实现一个简单的 Node.js 爬虫。在实际动手前，我们来看分析一下，人为统计的流程：

新建一个 Excel 表或文本文件；
打开浏览器，访问前端修仙之路；
浏览当前页，复制所需的信息，如文章标题、发布时间、文章分类及字数统计等；
若存在下一页，则访问下一页，然后执行上面的第 3 步操作；
数据收集完成，进行数据保存操作。

了解完上述的流程，我们来分析一下使用 Node.js 应该如何实现上述的功能。我的博客是基于 Hexo 搭建，Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown（或其他渲染引擎）解析文章，在几秒内，即可利用靓丽的主题生成静态网页。

由于博客上使用的是静态网页，因此我们只要能获取网页的 HTML 内容就跨出了一大步，在获取页面内容后，我们就能对网页进行解析，进而提取并保存所需的信息，之后如果发现还有下一页的话，我们就重复上述的流程。

现在我们可以把爬取的任务分为 3 个主要的流程：

获取网页的 HTML 内容；
解析 HTML 内容，抽取相应的文章信息；
保存已获取的内容。

此时，我们的流程已梳理清楚，让我们开启爬虫之旅。

获取网页的 HTML 内容

想要获取网页的内容，我们可以利用 HTTP 客户端来发送 HTTP 请求，这里我们选用 request 这个库。这个库使用起来非常的简单：

const request = require('request');

request('http://www.google.com', function (error, response, body) {
  console.log('error:', error); // Print the error if one occurred
  console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received
  console.log('body:', body); // Print the HTML for the Google homepage.
});

它不但简单易用，而且还很强大，支持很多特性，比如：

哈哈，不错哟，也支持 Promises 和 Async/Await。这里我们将选用 Bluebird 封装的 request-promise 库。首先我们来安装一下依赖：

$ npm i request request-promise --save

安装成功后，我们就可以来小试牛刀了：

var rp = require('request-promise');

rp('http://www.semlinker.com/')
    .then(function (htmlString) {
        // Process html...
        console.log(htmlString);
    })
    .catch(function (err) {
        // Crawling failed...
    });

运行以上代码后，不出意外的话，你将会在控制台看到输出的 HTML 代码。现在我们已经完成了第一步，接下来就要进入的我们下一个环节 —— HTML 解析。

解析 HTML 内容，抽取相应的文章信息

很巧的是，在 request-promise 说明文档中遇见了这个环节的主角 —— cheerio，不信你看：

var cheerio = require('cheerio'); // Basically jQuery for node.js

var options = {
    uri: 'http://www.google.com',
    transform: function (body) {
        return cheerio.load(body);
    }
};

rp(options)
    .then(function ($) {
        // Process html like you would with jQuery...
    })
    .catch(function (err) {
        // Crawling failed or Cheerio choked...
    });

不知道你是否已经注意到这行注释 —— “Basically jQuery for node.js”，看到 jQuery 你是不是有种熟悉的感觉。言归正传，我们来会一会 cheerio：

Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

看完介绍是不是没有概念，我们马上来个?：

const cheerio = require('cheerio')
const $ = cheerio.load('<h2 class="title">Hello world</h2>')

$('h2.title').text('Hello there!')
$('h2').addClass('welcome')

$.html()
//=> <h2 class="title welcome">Hello there!</h2>

小伙伴们是不是感觉棒棒哒，趁热打铁，我们先来安装一下 cheerio：

$ npm install cheerio

安装成功后，马上更新一下代码：

var rp = require('request-promise');
var cheerio = require('cheerio'); // Basically jQuery for node.js

var options = {
    uri: 'http://www.semlinker.com/',
    transform: function (body) {
        return cheerio.load(body);
    }
};

rp(options)
    .then(function ($) {
        // Process html like you would with jQuery...
    })
    .catch(function (err) {
        // Crawling failed or Cheerio choked...
    });

下面的重头戏就是数据抽取了，在编码前我们先来使用 Chrome 开发者工具分析一下页面结构：

通过分析，我们发现博客标题包含在 h1 标签中，而其它的信息包含在 div 标签中。在查看 cheerio 相关 API 之后，我们可以利用以下 API 获取博文的相关信息，具体如下：

rp(options)
    .then(function ($) {
        $('.post-header').each(function (i, elem) {
            let postTitle = $(this).find('.post-title').text();
            let postTime = $(this).find('.post-time time').text();
            let postCategory = $(this).find('.post-category a>span').text();
            let postWordCount = $(this).find('.post-wordcount span[title="字数统
              计"]').text();
            console.log(postTitle, postTime, postCategory, postWordCount);
        });
})

这时候我们已经完成单个页面的解析工作，剩下的任务就是解析剩余的页面和数据保存。要想解析剩余的页面，前提就是能够获取剩余页面的链接，这里我把目光投向 “首页分页条”，它对应的 HTML 结构如下：

<nav class="pagination" style="opacity: 1; display: block;">
   <span class="page-number current">1</span>
   <a class="page-number" href="/page/2/">2</a>
   <span class="space">…</span>
   <a class="page-number" href="/page/4/">4</a>
   <a class="extend next" rel="next" href="/page/2/">
     <i class="fa fa-angle-right"></i>
   </a>
</nav>

通过上面的结构，我们可以获取当前页、下一页和总页数等信息，而且知道了页面链接的规则：/page/:page-number，所以我们已经知道如何获取所有页面的链接地址。下面我们定义一个 BlogSpider 类，用来实现上述两个流程：

import * as rp from 'request-promise';
import * as cheerio from 'cheerio';

interface SpiderOption {
  uris: any;
}

class BlogSpider {
  startUris;
  result = [];

  static create(spiderOption: SpiderOption) {
    return new BlogSpider(spiderOption);
  }

  constructor(private spiderOption: SpiderOption) {}
  
  private makeUris() {
    let { uris } = this.spiderOption;
    return typeof uris === 'string'
      ? [uris]
      : this.isIterable(uris)
        ? uris
        : [];
  }

  private isIterable(obj) {
    if (!obj) return false;
    return typeof obj[Symbol.iterator] === 'function';
  }

  async start() {
    this.startUris = this.makeUris();
    let posts;
    for (let uri of this.startUris) {
      if (!uri) return;
      posts = await this.crawl(uri);
      if (posts) this.result = this.result.concat(posts);
    }
    console.log(this.result);
    return this.result;
  }

  async crawl(uri) {
    try {
      let $ = await this.load(uri);
      return this.parse($);
    } catch (error) {
      console.error(error);
    }
  }

  load(uri: string): Promise<any> {
    let options = {
      uri,
      transform: body => cheerio.load(body),
    };
    return rp(options);
  }

  parse($) {
    let posts = [];
    $('.post-header').each(function(i, elem) {
      let postTitle = $(this)
        .find('.post-title')
        .text().trim();
      let postTime = $(this)
        .find('.post-time time')
        .text().trim();
      let postCategory = $(this)
        .find('.post-category a>span')
        .text().trim();
      let postWordCount = $(this)
        .find('.post-wordcount span[title="字数统计"]')
        .text().trim();
      posts.push({
        postTitle,
        postTime,
        postCategory,
        postWordCount,
      });
    });
    return posts;
  }
}

使用方式如下：

function* uriGenerator(baseUri, totalPage) {
  let index = 1;
  while (index <= totalPage) {
    yield index === 1 ? baseUri : `${baseUri}/page/${index}`;
    index++;
  }
}

let gen = uriGenerator('http://www.semlinker.com', 2);

// 创建BlogSpider
const spider = BlogSpider.create({
  uris: gen, // ['http://www.semlinker.com', 'http://www.semlinker.com/page/2']
});

// 启动BlogSpider
spider.start();

上面代码中，我们定义了一个 uriGenerator 生成器，用来生成爬取的 uri 地址。当然 uri 数量较少的情况下，是可以直接使用数组，使用生成器的主要目的是避免出现大数据量下的内存消耗问题。此外，也可以在初始化的时候设置一个起始地址，当爬取完当前页的时候，在获取下一页的 uri 地址，直到所有页面都爬取完成。

最后我们来介绍最后一个环节 —— 保存已获取的内容。

保存已获取的内容

在上一个环节，我们已经完成博文信息的爬取工作，在获取博文信息后，我们可以对数据进行持久化操作，比如保存到 Redis 或数据库（MongoDB、MySQL等）中，也可以把数据输出成文件。这里，我们选择的持久化方案是 —— “输出 JSON 文件”。利用 Node.js FS API，我们可以实现一个简单的 writeFile() 函数：

function writeFile(outputPath, content) {
  fs.writeFile(outputPath, content, function(err) {
    if (err) throw err;
    console.log('文件写入成功');
  });
}

创建完 writeFile() 函数，我可以在定义一个入口函数，比如：

async function main() {
  let gen = uriGenerator('http://www.semlinker.com', 2);
  const spider = BlogSpider.create({
    uris: gen,
  });
  const blogs = await spider.start();
  writeFile(__dirname + '/blog.json', JSON.stringify(blogs));
}

以上代码成功运行后，你就可以在当前目录下看到新建的 blog.json 文件，此时我们的爬虫之旅就落下帷幕。