首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

scrapy 框架实践爬虫-思路篇

1. 写在最开始最近接触了一下scrapy框架 , 决定试用这个框架写一个简单的爬虫。看标题就知道 , 这篇文章主要是了解scrapy框架并讲解下爬虫的大致思路 , 过程后续会再开博客进行讲解。在写爬虫之前 , 需要知道一下 , 这个爬虫要做什么事情。简单来说就做了以下三件事:1、爬取目标网页2、从网页中提取所需数据3、存放于本地数据库中2. 所需工具1、MySQL 数据库2、python33、scrapy各种工具的安装不再赘述 , 本篇也主要是讲解下思路。3. scrapy3.1 介绍scrapy是一个为了爬取网站数据 , 提取机构性数据而编写的应用框架。可以用在数据挖掘信息处理等一系列程序中。scrapy整体框架如下

主要包括了 5 个组件:

Scrapy Engine

整个框架的核心 , 处理整个系统的数据流 , 协同调度其他组件

Scheduler

接收 Scrapy Engine 发过来的 requests , 压入队列中 , 需要下载页面时 , 从此处取出地址

Downloader

用于下载网页内容

Spider

用于从下载的网页中 , 提取出所需信息

ItemPipeline

将爬虫所提取的信息 , 转化为item 进行存储

scrapy 运行流程如下:1、Scrapy Engine 从 Scheduler 中取出 request 给 Downloader 进行下载2、Downloader 下载完成后返回 responses , Scrapy Engine 将 responses 返回给 Spiders 进行解析3、Spiders 将解析的 item 交给 ItemPipeline 进行处理4、Spiders 将解析的 url 交给 Scheduler 进行下一轮抓取4. 爬虫思路本次爬虫要爬取的网址是顶点小说在首页导航栏中可以看到 , 该网站包括首页总共有 11 个分站。

先爬取首页 , 获取各个分站网站 , 再从分站网页中获取到具体小说的详细地址。之后就可以根据自己的需求获取到具体信息。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180223G0ME9R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券