前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy框架学习记录

Scrapy框架学习记录

作者头像
K同学啊
发布2019-01-22 15:16:28
3530
发布2019-01-22 15:16:28
举报

随着Python爬虫学习的深入,开始接触Scrapy框架

记录下两个参考教程:

官网教程可以说是比较权威比较全的,但是有一部分细节存没有交代清楚,例如第一个Scrapy框架项目的建立,这个时候我们可以参考第二个知乎的教程,主要还是以官网教程为主滴。

首先,按照官网的Scrapy安装教程安装Scrapy

安装指南

安装Scrapy

注解

请先阅读 平台安装指南.

下列的安装步骤假定您已经安装好下列程序:

您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

使用pip安装:

代码语言:javascript
复制
pip install Scrapy

在这过程中我遇到了这个错误(原因是pip版本太低):

注意一下黄色字体的说明,大致意思就是你的pip版本太低需要更新。

更新用cmd进行,在cmd里面运行python,输入以下语句即可完成更新:

代码语言:javascript
复制
python -m pip install --upgrade pip

在更新完pip后我们就可以按照Scrapy了。

如果lxml还没安装的童鞋,可以通过pip完成安装,安装语句:

代码语言:javascript
复制
pip install lxml

Scrapy项目的建立

安装好以上环境、包之后,打开cmd,输入scrapy startproject liaoxuefeng,出现以下提示后,就说明你已经成功创建一个scrapy的新项目:

该命令将会创建包含下列内容的 tutorial 目录:

代码语言:javascript
复制
tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

  • scrapy.cfg: 项目的配置文件
  • tutorial/: 该项目的python模块。之后您将在此加入代码。
  • tutorial/items.py: 项目中的item文件.
  • tutorial/pipelines.py: 项目中的pipelines文件.
  • tutorial/settings.py: 项目的设置文件.
  • tutorial/spiders/: 放置spider代码的目录.

CMD部分

输入:“cd..”返回更目录

输入:“f:”进入f盘

输入:“cd”并将test文件夹拖入cmd中,回车,进入test文件夹,然后就可以执行我们的“scrapy startproject liaoxuefeng”语句了

备注:以管理员身份进入cmd是不允许将文件(夹)拖入cmd中的,这个时候就比较麻烦需要手动输入文件地址了,一般我是不会以管理员身份进入cmd。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年05月13日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装指南
    • 安装Scrapy
    • Scrapy项目的建立
    • CMD部分
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档