首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python:爬虫系列笔记(4) -- URL异常处理

11004,错误原因是 getaddrinfo failed 2.HTTPError HTTPError是URLError的子类,在你利用urlopen方法发出一个请求时,服务器上都会对应一个应答对象response...其他不能处理的,urlopen会产生一个HTTPError,对应相应的状态吗,HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下: 100:继续 客户端应当继续发送请求。...:丢弃 403:禁止 处理方式:丢弃 404:没有找到 处理方式:丢弃 500:服务器内部错误 服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。...)except urllib2.HTTPError, e: print e.code print e.reason 运行结果如下 12 403Forbidden 错误代号是403,错误原因是...如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因。

1.8K90
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python爬虫基础知识:异常的处理

    HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。...,内容是getaddrinfo failed 2.HTTPError 服务器上每一个HTTP 应答对象response包含一个数字"状态码"。...其他不能处理的,urlopen会产生一个HTTPError。 典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。...处理方式:丢弃 403 禁止 处理方式:丢弃 404 没有找到 处理方式:丢弃 5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误,不能继续执行请求 处理方式:...当一个错误号产生后,服务器返回一个HTTP错误号,和一个错误页面。 你可以使用HTTPError实例作为页面返回的应答对象response。

    1.2K100

    Python——爬虫入门 Urllib库的进阶

    上一篇文章我们简单讲解了Urllib库的基础用法,包括如何获取请求之后的页面响应,如何使用POST请求上传数据,今天我们就来讲讲Urllib库的几个进阶用法。...URLError: 通常,URLError被抛出是因为网络请求出现了错误,比如服务器访问错误,或者访问的站点不存在,在这种情况下都会抛出一个URLError,这个错误是一个包含着reason和code的元组...,分别对应着错误消息和错误代码。...HTTPError,每个来自服务器的HTTP应答都会携带着一个包含数值的状态码,例如我们耳熟能详的200、404(页面丢失)、403(请求被禁止)等等。...# 同时处理HTTPError和URLError import urllib2 url = 'http://www.lixxxxxxxx.com' req = urllib2.Request(url

    55330

    爬虫之urllib.error模块

    error模块简介 我们在爬虫的时候发请求的时候难免出现错误,如访问不到服务器或者访问被禁止等等, 出错了之后urllib将错误信息封装成了一个模块对象中,这个模块就叫error模块 error的分类...分为URLError和HTTPError。...,403等等(400以上),那么催无信息就会被封装在HTTPError里 URLError与HttpError的区别和关系 区别: URLError封装的错误信息一般是由网络引起的,包括url错误 HTTPError...封装的错误信息一般是服务器返回了错误状态码 关系: URLError是OSERROR的子类,HTTPError是URLError的子类 使用方法 error类是在捕获错误信息的时候使用,而且一般我们也需要进行捕获...,因为你很难确定访问请求一定不会出现错误 from urllib import request from urllib import error url = 'http://baiduuuu.com'

    66600

    Python:urllib2模块的URLError与HTTPError

    urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。...这里主要说的是URLError和HTTPError,以及对它们的错误处理。...HTTPError HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。...如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。...500.12 应用程序正忙于在 Web 服务器上重新启动。 500.13 Web 服务器太忙。 500.15 不允许直接请求 Global.asa。 500.16 UNC 授权凭据不正确。

    2.4K10

    爬取美团网站信息(一)

    最近入坑爬虫,在摸索使用scrapy框架爬取美团网站的数据 第一步,准备从地区信息开始爬,打开美团官网,点击切换地区,按F12,点击XHR,XHR会过滤出来异步请求,这样我们就看大了美团的地区信息的json...数据,复制该链接http://www.meituan.com/ptapi/getprovincecityinfo/ ?...在通过读取配置文件的方式,过滤掉区县,留下市一级的所有信息 读取配置使用configparser模块。保存到数据库 ?...scrapy框架遵守robot.txt规则,所以会被拒绝访问,在setting中设置 ROBOTSTXT_OBEY = False 同事为了避免出现请求403错误,继续设置setting ---- ''...''' HTTPERROR_ALLOWED_CODES = [403] ---- 下次将继续更新爬取县区以及街道的数据,数据量较大,目前还在继续爬取,准备爬取所有数据,有问题可以留言,只会提供思路,不会提供源代码

    1.5K20

    初识 Python 网络请求库 urllib

    method 参数指的是发起的 HTTP 请求的方式,有 GET、POST、DELETE、PUT等 现在我们使用 urllib.request 模拟使用 mac 上的 chrome 浏览器。...urllib.error 网络通信是一个异步的通信过程,不可避免的会出现异常,此时就要用到 urllib.error 来处理错误『若不处理错误会造成程序中断执行』,这个会增加程序的健壮性。...URLError 示例代码: from urllib import request from urllib import error url = "http://www.google.com" try...是专门用于处理 http 和 https 请求错误的异常类,HTTPError 也可以作为一个特殊的文件返回值「它与 URLopen 的返回相同」。...是 URLError 的子类,因此在 HTTPError 和 URLError 混合使用时要将 HTTPError 放在 URLError 前面。

    94640

    教程 | 如何利用Google Colab免费训练StarCraft II

    选自Medium 作者:Franklin He 机器之心编译 参与:Nurhachu Null、路 本文介绍了如何在 Google Colab(Google 提供免费 GPU 的机器学习环境)上运行 StarCraft...为了向全球的 StarCraft II 研究者提供一个可复现、高效,且容易分享代码的环境,我想看看我们能否让 StrCraft II 在 Google Colab(Google 提供免费 GPU 的机器学习环境...那为什么会出现段错误呢? 因为同样的程序在我的本地机器上运行的时候没有崩溃,这也否定了暴雪的代码有问题的假设。...快速搜索如何调试段错误使我想起了 Valgrind(http://valgrind.org/),令我惊讶的是,该工具竟然可以在 Google Colab 上使用。...我已经在 Google Colab 上提出了这个 bug(https://github.com/googlecolab/colabtools/issues/106),因此我们以后不必为此大费周折了。

    1.7K70
    领券