专栏首页机器学习从入门到成神PyCharm下进行Scrapy项目的调试

PyCharm下进行Scrapy项目的调试

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/72835653

PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。

1、首先创建一个Scrapy项目:

在命令行输入:

scrapy startproject project_name

project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:


2、创建新的Spider

在命令行输入:

scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass

3、配置setting.py文件(这步很重要)

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ROBOTSTXT_OBEY = False一定要设置成 False,断点调试才能正常进行。


4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!

from scrapy.cmdline import execute
import sys
import os

# 打断点调试py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])

5、进行断点调试


附录

xpath相关知识

在用Scrapy进行数据爬取时可能会用到xpath相关知识,所以简单地展示一张图:

在这里面值得注意的是‘’/“和”//“的区别!

/:代表子元素,选取的元素必须是父子关系

//:代表所有后代元素,选取的元素不一定是父子关系,只要是后代元素即可

不过,大家要是觉得难的话,也可以利用chrome的元素查找功能进行xpath路径的复制:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Vue-router的配置以及实战(易错点)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

    大黄大黄大黄
  • 计算机系统的层次存储结构详解

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

    大黄大黄大黄
  • Inverse和Cascade的比较

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

    大黄大黄大黄
  • windows 7的msconfig启动项的删除

    我使用的系统是windows server 2008 r2,最近发现msconfig很多以前禁用的启动项,太多想删除一下:

    williamwong
  • 搜索和在线阅读 Github 代码的插件推荐

    上一篇文章 推荐了 3 个 Github 相关的项目,这次继续推荐 3 个项目,严格说是 3 个插件,主要是帮助搜索 Github 项目和在线阅读代码的插件。

    材ccc
  • 测者的性能测试手册:一分钟掌握LoadRunner关联函数应该放在那

    如果客户端的某个请求是随着服务器端的响应而动态变化,我们就需要用到关联,通过关联函数获取动态的返回值,传给后面的函数使用,完成测试上下文的流程串联...

    Criss@陈磊
  • 实操 | 从0到1教你用Python来爬取整站天气网

    Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

    润森
  • 云计算能够解决归档存储问题吗?

    云计算似乎是归档存储数据的理想场所。它提供了按需付费的增长模式,并使组织能够缩减其内部存储空间。但问题是,三大供应商(亚马逊AWS,微软Azure和谷歌计算)并...

    静一
  • MySQL 数据归档实战 -Python 和 pt-archiver 的强强结合

    生产环境需要做归档的任务有十几个,如果要知道每个归档任务成功与否、跑了多长时间、归档了多少数据,就得手工逐个查看日志,非常枯燥的重复劳动,那是否有办法可以统一管...

    wubx
  • MySQL数据归档实战-python和pt-archiver的强强结合

    一,引言 前段时间在优雅的使用pt-archiver进行数据归档一文中介绍了pt-archiver的使用方法,也将pt-archiver部署到了生产环境,这时候...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券