专栏首页Python 知识大全Python网络爬虫进阶扩展(完)

Python网络爬虫进阶扩展(完)

Python网络爬虫进阶扩展

13 /10

周日 晴

1. 如何使scrapy爬取信息不打印在命令窗口中

  • 通常,我们使用这条命令运行自己的scrapy爬虫:
scrapy crawl spider_name
  • 但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中。
  • 很乱,也不方便查询。所以,可使用该命令代替:
scrpay crawl spider_name  -s LOG_FILE=all.log

2. Scrapy中的日志处理

  • Scrapy提供了log功能,可以通过 logging 模块使用
  • 可以修改配置文件settings.py,任意位置添加下面两行
LOG_FILE = "mySpider.log"
LOG_LEVEL = "INFO"
  • Scrapy提供5层logging级别:
CRITICAL - 严重错误(critical)
ERROR - 一般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - 一般信息(informational messages)
DEBUG - 调试信息(debugging messages)
  • logging设置
  • 通过在setting.py中进行以下设置可以被用来配置logging:
LOG_ENABLED 默认: True,启用logging
LOG_ENCODING 默认: 'utf-8',logging使用的编码
LOG_FILE 默认: None,在当前目录里创建logging输出文件的文件名
LOG_LEVEL 默认: 'DEBUG',log的最低级别
LOG_STDOUT 默认: False 如果为 True,进程所有的标准输出(及错误)将会被重定向到log中。例如,执行 print "hello" ,其将会在Scrapy log中显示
  • 记录信息
  • 下面给出如何使用WARING级别来记录信息
from scrapy import log
log.msg("This is a warning", level=log.WARNING)

END

岁月有你 惜惜相处

本文分享自微信公众号 - Python 知识大全(TuoLaJi522),作者:杨姐姐

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python scrapy框架的简单使用

    注意:Scrapy运行ImportError: No module named win32api错误。请安装:pip install pypiwin32

    Python知识大全
  • Python中处理随机数(干货)

    关于在Python中处理随机性的概述,只使用标准库和CPython本身中内置的功能。

    Python知识大全
  • Python 爬虫简单验证码识别和抓包

    Python知识大全
  • 2015百度一道面试题引发的思考(shell脚本和网络)

    原文    http://blog.csdn.net/chhuach2005/article/details/40044863

    bear_fish
  • python连接kafka

    https://blog.csdn.net/see_you_see_me/article/details/78468421 https://zhuanlan.z...

    py3study
  • 思维导图——让你的灵感思如泉涌!!!

    今天想跟大家聊聊思维导图! ▼▼▼▼▼ ▌思维导图是日常写作、案例分析、商务汇报等场合常用的逻辑梳理工具,它可以更加高效的展现我们思维方式、整理分散的创意、想法...

    数据小磨坊
  • 如何回应SCI审稿人的提问?

    众所周知,一篇SCI大概要经过3个阶段,即做实验、写作成稿和投稿修稿。每一个阶段都非常考验人,整个过程下来几乎能榨干你的最后一滴脑汁。

    Mark Chen
  • JavaWeb项目架构之Kafka分布式日志队列

    架构、分布式、日志队列,标题自己都看着唬人,其实就是一个日志收集的功能,只不过中间加了一个Kafka做消息队列罢了。

    小柒2012
  • Nginx日志配置及日志分析脚本案例

    其中access log 记录了哪些用户,哪些页面以及用户浏览器、ip和其他的访问信息

    菲宇
  • JavaWeb项目架构之Kafka分布式日志队列

    架构、分布式、日志队列,标题自己都看着唬人,其实就是一个日志收集的功能,只不过中间加了一个Kafka做消息队列罢了。 ? kafka介绍 Kafka是由Apac...

    小柒2012

扫码关注云+社区

领取腾讯云代金券