前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy 入门

Scrapy 入门

原创
作者头像
HLee
修改2021-06-02 14:33:58
3700
修改2021-06-02 14:33:58
举报
文章被收录于专栏:房东的猫房东的猫房东的猫

简介

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

  • Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
  • Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Scrapy

Scrapy安装

pip install Scrapy

Scrapy新项目

scrapy startproject scrapyspider

备注:新项目名-scrapyspider

就会生成 Scrapy 项目,项目名称是 scrapyspider ,结构如下:主要改写2个文件:“items、settings”,新增2个文件:“爬虫主程序”、itemcsvexporter。

scrapyspider
 scrapy.cfg                    #创建项目时自动生成,项目的配置文件
 scrapyspider/
    __init__.py                #创建项目时自动生成,无需任何改动
    items.py                   #创建项目时自动生成,定义爬取的字段    
    pipelines.py               #创建项目时自动生成,如存入文件,无需任何改动    
    settings.py                #创建项目时自动生成,将爬取字段按顺序输出    
    middlewares.py             #创建项目时自动生成,无需任何改动    
    spiders/   
        __init__.py            #创建项目时自动生成,无需任何改动	
	itemcsvexporter.py         #需自己编写,代码固定	
        爬虫主程序.py           #需自己编写,爬虫的主程序

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • Scrapy
    • Scrapy安装
      • Scrapy新项目
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档