前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个小又全的爬虫项目包含哪些部分

一个小又全的爬虫项目包含哪些部分

作者头像
友儿
发布2022-10-05 08:08:43
3040
发布2022-10-05 08:08:43
举报
文章被收录于专栏:友儿

一个小又全的爬虫项目

  • 任务生成者 生成爬虫任务的组件, 最大的作用就是建立生产消费者模型, 将生产者和消费者剥离, 可以达到程序暂停重启的功能.
  • 配置文件 当前爬虫项目的基础配置信息, 目的就是统一化配置, 避免重复修改.
  • 主函数/调度器 以逻辑控制流协同各个组件, 完成爬取工作, 具有一定的调度功能
  • 下载器 用来和目标服务器进行交互, 获取数据的组件
  • 解析器 用来解析非结构化的页面内容, 获取想要的数据.
  • 存储器 用来持久化解析后的数据
    • 数据库
    • 存为本地文件, 比较推荐的格式为json, 结构严谨的可以保存为csv

github地址

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一个小又全的爬虫项目
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档