前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy基础(一): 安装和使用

Scrapy基础(一): 安装和使用

作者头像
Meet相识
发布2018-09-12 16:20:12
3640
发布2018-09-12 16:20:12
举报
文章被收录于专栏:技术专栏技术专栏
  • 安装
代码语言:javascript
复制
pip install -i http://pypi.douban.com/simple scrapy    
// -i http://pypi.douban.com/simple 为加速安装
  • 新建scrapy项目
代码语言:javascript
复制
scrapy startproject ArticleSpider  //会在当前路径创建项目 ArticleSpider为项目名
cd ArticleSpider && genspider example example.com //创建爬虫模板 example为spider名称 example.com为网站域名
  • 目录
代码语言:javascript
复制
scrapy.cfg //项目配置
ArticleSpider/settings.py  //工程配置
ArticleSpider/pipelines.py //数据存储
ArticleSpider/middlewares.py 存放自定制的middlewares
ArticleSpider/items  //保存格式
spilers  //具体的爬虫
  • scrapy模板
代码语言:javascript
复制
import scrapy

class XXX(scrapy.Spider):
    name = 'xxx'  //名字
    allowed_domains = ['example.com']  //域名
    start_urls = ['http://example.com']  //起始url

    def parse(self, response):  //具体的爬虫逻辑
        pass
  • 使用pycharm调试scrapy执行流程
代码语言:javascript
复制
--- main.py ---
from scrapy.cmdline import execute
import sys
import os

# os.path.abspath(__file__))  获取当前文件的绝对路径
# os.path.dirname()  获取当前文件的父目录
sys.path.append(os.path.dirname(os.path.abspath(__file__)))  
# execute 执行终端命令
execute(["scrapy","crawl","xxx"])
  • scrapy 终端调试
代码语言:javascript
复制
scrapy shell url
//然后回进入终端,使用response参数获取爬取的内容如:
response.xpath()
  • xpath 使用

简介

节点关系

语法1

语法2-谓语

语法3

  • css选择器

css选择器1

css选择器2

css选择器3

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.11.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档