scrapy爬虫框架(一):scrapy框架简介

一、安装scrapy框架

#打开命令行输入如下命令:
pip install scrapy

二、创建一个scrapy项目

安装完成后,python会自动将 scrapy命令添加到环境变量中去,这时我们就可以使用 scrapy命令来创建我们的第一个 scrapy项目了。

打开命令行,输入如下命令

scrapy startproject yourproject

这里的 startproject 命令将会在当前目录下创建一个 scrapy项目,后面跟着的参数是需要创建的项目的名称。

比如这里我们会创建一个名为 yourproject 的项目,项目结构如下:

yourproject/
    scrapy.cfg
    yourproject/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

  • scrapy.cfg: 项目的配置文件
  • yourproject/: 该项目的python模块。该项目的所有代码都在这个目录下
  • yourproject/items.py: 项目中的item文件,我们在这个文件里定义要爬取的数据,有点类似于 Django的 model。
  • yourproject/pipelines.py:项目中的pipelines文件(我把这个称为通道文件,意思就是数据处理的通道),对爬取到的数据进行处理(如:储存)
  • yourproject/settings.py: 项目的设置文件,设置全局变量的值、通道的开启和关闭以及多个通道和爬虫的执行优先级
  • yourproject/spiders/: 爬虫的主要逻辑都在这个文件夹里,包括页面请求、数据提取、反爬措施等。

.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能合约

node.js调用webservice遇到的问题

2435
来自专栏IT开发技术与工作效率

Eclipse Alt+/插入自定义代码段教程

1372
来自专栏lgp20151222

Cannot change version of project facet Dynamic Web Module to 2.5的解决

修改org.eclipse.wst.common.project.facet.core.xml文件

911
来自专栏技术博文

Linux查看程序被哪个端口占用

原因: 最近装mongodb,启动的时候,总是报错 #执行命令: mongod -f ./mongodb.conf #报错信息 listen(): bind(...

2975
来自专栏Python与爬虫

如何获取小程序的源代码

准备工作 手机已经root adb.exe 已经放到了系统环境变量,也就是打开cmd 后输入 adb不会报错,如下图 ? 手机能连上电脑,并且手机开启us...

1.2K14
来自专栏用户画像

idea git merge

当两个开发人员修改了同一个文件,A提交之后,B再获取或者提交代码时,就会产生冲突。

762
来自专栏Youngxj

网站防拦截攻略二:调用默认浏览器

6463
来自专栏王亚昌的专栏

linux平台下svn环境搭建【未完】

 1. http://apr.apache.org/download.cgi 下载

801
来自专栏深度学习之tensorflow实战篇

linux (ubantu)安装最新版python3.6,以及直接安装anaconda

用Linux自带的下载工具wget下载(当前的最新版本python3.6.0),进入个人用户下面的Downloads下 cd ~/tmp/ wget https...

3625
来自专栏性能与架构

Linux nginx日志按天分割实例

nginx的日志有个小缺点,日志文件一直就是一个,不会自动地进行切割,如果访问量很大的话,将导致日志文件非常大,不便于管理 这就需要我们自己来实现了,按日期每...

3685

扫码关注云+社区

领取腾讯云代金券