前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PyCharm下进行Scrapy项目的调试

PyCharm下进行Scrapy项目的调试

作者头像
大黄大黄大黄
发布2018-09-14 17:49:57
1.3K0
发布2018-09-14 17:49:57
举报

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/72835653

PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。

1、首先创建一个Scrapy项目:

在命令行输入:

代码语言:javascript
复制
scrapy startproject project_name

project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:

这里写图片描述
这里写图片描述

2、创建新的Spider

在命令行输入:

代码语言:javascript
复制
scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
代码语言:javascript
复制
# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass

3、配置setting.py文件(这步很重要)

代码语言:javascript
复制
BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ROBOTSTXT_OBEY = False一定要设置成 False,断点调试才能正常进行。


4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!

代码语言:javascript
复制
from scrapy.cmdline import execute
import sys
import os

# 打断点调试py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])

5、进行断点调试

这里写图片描述
这里写图片描述

附录

xpath相关知识

在用Scrapy进行数据爬取时可能会用到xpath相关知识,所以简单地展示一张图:

这里写图片描述
这里写图片描述

在这里面值得注意的是‘’/“和”//“的区别!

/:代表子元素,选取的元素必须是父子关系

//:代表所有后代元素,选取的元素不一定是父子关系,只要是后代元素即可

不过,大家要是觉得难的话,也可以利用chrome的元素查找功能进行xpath路径的复制:

这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年06月02日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 附录
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档