专栏首页技术专栏Scrapy基础(一): 安装和使用

Scrapy基础(一): 安装和使用

  • 安装
pip install -i http://pypi.douban.com/simple scrapy    
// -i http://pypi.douban.com/simple 为加速安装
  • 新建scrapy项目
scrapy startproject ArticleSpider  //会在当前路径创建项目 ArticleSpider为项目名
cd ArticleSpider && genspider example example.com //创建爬虫模板 example为spider名称 example.com为网站域名
  • 目录
scrapy.cfg //项目配置
ArticleSpider/settings.py  //工程配置
ArticleSpider/pipelines.py //数据存储
ArticleSpider/middlewares.py 存放自定制的middlewares
ArticleSpider/items  //保存格式
spilers  //具体的爬虫
  • scrapy模板
import scrapy

class XXX(scrapy.Spider):
    name = 'xxx'  //名字
    allowed_domains = ['example.com']  //域名
    start_urls = ['http://example.com']  //起始url

    def parse(self, response):  //具体的爬虫逻辑
        pass
  • 使用pycharm调试scrapy执行流程
--- main.py ---
from scrapy.cmdline import execute
import sys
import os

# os.path.abspath(__file__))  获取当前文件的绝对路径
# os.path.dirname()  获取当前文件的父目录
sys.path.append(os.path.dirname(os.path.abspath(__file__)))  
# execute 执行终端命令
execute(["scrapy","crawl","xxx"])
  • scrapy 终端调试
scrapy shell url
//然后回进入终端,使用response参数获取爬取的内容如:
response.xpath()
  • xpath 使用

简介

节点关系

语法1

语法2-谓语

语法3

  • css选择器

css选择器1

css选择器2

css选择器3

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Scrapy基础(二): 使用详解

    scrapy的安装和基本介绍请看 http://www.jianshu.com/p/a71386fa317a

    Meet相识
  • 修复spring mvc拦截器不起作用的bug

    今天在做springmvc登录过滤拦截器的时候,发现虽然写了mvc:exclude-mapping,但是login依旧走了拦截器,很是费解,后来请教了负责人,原...

    Meet相识
  • Hadoop2.x linux&mac下分布式安装部署

    详情请参考 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/Si...

    Meet相识
  • scrapy初试

    定义item Item是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。 类似在...

    爱撒谎的男孩
  • Python分布式爬虫打造搜索引擎Scrapy精讲

    chrome谷歌浏览器无界面运行,主要运行在Linux系统,windows系统下不支持

    拓荒者
  • 点融获7000万美元融资 官网启用双拼域名dianrong.com

    1月24日消息:点融获7000万美元融资,该融资由综合金融服务集团欧力士(ORIX)全资子公司欧力士亚洲资本有限公司领投,中信集团旗下中信证券海外子...

    躲在树上的域小名
  • Yann LeCun高端私享会纪实:预测学习才是AI的未来

    用户1737318
  • scarpy初识

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy的一个最主要...

    听城
  • Libmicrohttpd嵌入式服务

    GNU Libmicrohttpd是一个用来在项目中内嵌http服务器的C语言库,它具有以下几个非常鲜明的特点:

    随心助手
  • javascript原型链-review

    虽然现在es8都已经在预发布阶段了,但是无论发布到es几,其本身的运作原理都是一样的。

    littlelyon

扫码关注云+社区

领取腾讯云代金券