Scrapy基础（一）：安装和使用

Meet相识

发布于 2018-09-12 16:20:12

6050

安装

pip install -i http://pypi.douban.com/simple scrapy    
// -i http://pypi.douban.com/simple 为加速安装

新建scrapy项目

scrapy startproject ArticleSpider  //会在当前路径创建项目 ArticleSpider为项目名
cd ArticleSpider && genspider example example.com //创建爬虫模板 example为spider名称 example.com为网站域名

scrapy.cfg //项目配置
ArticleSpider/settings.py  //工程配置
ArticleSpider/pipelines.py //数据存储
ArticleSpider/middlewares.py 存放自定制的middlewares
ArticleSpider/items  //保存格式
spilers  //具体的爬虫

scrapy模板

import scrapy

class XXX(scrapy.Spider):
    name = 'xxx'  //名字
    allowed_domains = ['example.com']  //域名
    start_urls = ['http://example.com']  //起始url

    def parse(self, response):  //具体的爬虫逻辑
        pass

使用pycharm调试scrapy执行流程

--- main.py ---
from scrapy.cmdline import execute
import sys
import os

# os.path.abspath(__file__))  获取当前文件的绝对路径
# os.path.dirname()  获取当前文件的父目录
sys.path.append(os.path.dirname(os.path.abspath(__file__)))  
# execute 执行终端命令
execute(["scrapy","crawl","xxx"])

scrapy 终端调试

scrapy shell url
//然后回进入终端，使用response参数获取爬取的内容如：
response.xpath()

xpath 使用

简介

节点关系

语法1

语法2-谓语

语法3

css选择器

css选择器1

css选择器2

css选择器3

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.11.03 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

Scrapy基础（一）：安装和使用

Scrapy基础（一）：安装和使用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Scrapy基础（一）： 安装和使用

Scrapy基础（一）： 安装和使用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Scrapy基础（一）：安装和使用

Scrapy基础（一）：安装和使用