Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
pip install Scrapy
scrapy startproject scrapyspider
备注:新项目名-scrapyspider
就会生成 Scrapy 项目,项目名称是 scrapyspider ,结构如下:主要改写2个文件:“items、settings”,新增2个文件:“爬虫主程序”、itemcsvexporter。
scrapyspider
scrapy.cfg #创建项目时自动生成,项目的配置文件
scrapyspider/
__init__.py #创建项目时自动生成,无需任何改动
items.py #创建项目时自动生成,定义爬取的字段
pipelines.py #创建项目时自动生成,如存入文件,无需任何改动
settings.py #创建项目时自动生成,将爬取字段按顺序输出
middlewares.py #创建项目时自动生成,无需任何改动
spiders/
__init__.py #创建项目时自动生成,无需任何改动
itemcsvexporter.py #需自己编写,代码固定
爬虫主程序.py #需自己编写,爬虫的主程序
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。