开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Urllib2不工作，http禁止错误

Urllib2是Python中用于发送HTTP请求的标准库，但在Python 3.x版本中已经被废弃，取而代之的是urllib.request模块。如果你在使用Python 2.x版本，并且遇到了Urllib2不工作或者HTTP禁止错误的问题，可能有以下几个原因和解决方法：

版本兼容性问题：确保你使用的是Python 2.x版本，并且已经正确导入了Urllib2模块。如果你使用的是Python 3.x版本，应该使用urllib.request模块。
网络连接问题：检查你的网络连接是否正常，确保可以正常访问目标网站。如果网络连接存在问题，可以尝试使用其他网络环境或者检查网络设置。
HTTP禁止错误：HTTP禁止错误通常是由于服务器设置了访问限制导致的。这可能是因为你的请求被服务器拒绝，或者你的请求不符合服务器的访问规则。解决方法包括：

检查请求的URL是否正确，确保没有拼写错误或者缺失部分。
检查请求的方法是否正确，例如GET、POST等。
检查请求的头部信息是否完整和正确，有些服务器可能要求特定的头部信息才能正常访问。
如果你需要通过身份验证才能访问服务器，确保提供了正确的用户名和密码。
如果服务器使用了代理，确保配置了正确的代理设置。

总结起来，当遇到Urllib2不工作或者HTTP禁止错误时，首先要确认Python版本和模块导入是否正确，然后检查网络连接是否正常，最后排查服务器设置和请求参数是否正确。如果问题仍然存在，可以参考相关的Python文档和网络资源进行更深入的排查和解决。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【译】HTTP错误码403禁止：意味着什么，怎么修复它

在上网的时候，收到任何的错误码都是让人沮丧的体验。尽管我们已经习惯于404页面找不到，我们在页面迷失的时候，看到可爱的占位符来娱乐我们是很常见的事情了。但是有种更令人困惑的403错误：禁止响应。...403响应是属于客户端错误4xx范围的HTTP响应。这意味着你或者你的浏览器做错了什么。...如果你在一个站点上拥有多个账号，并且尝试执行通常可以访问的操作，但是这次被禁止这样做了，那么你应该尝试此方法：使用你的其他账号登陆。...通知网站所有者：当你想访问内容时候返回了403 如果你希望完全可以访问有问题的资源，但是仍然看到此错误，那么明智的做法就是让网站背后的团队知道 - 这可能是他们的错误。...你可以通过http.cat站点来反省一下，为什么你的原始请求会被禁止后话原文：www.freecodecamp.org/news/http-e… 文章首发：github.com/reng99/blog

30.2K2 0

Python：爬虫系列笔记(4) -- URL异常处理

下面是一个例子，先感受下它的风骚 1234567 import urllib2 requset = urllib2.Request('http://www.xxxxx.com')try: urllib2...502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。 503：服务出错由于临时的服务器维护或者过载，服务器当前无法处理请求。...因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。...12345678 import urllib2 req = urllib2.Request('http://blog.csdn.net/cqcre')try: urllib2.urlopen(req...Forbidden，说明服务器禁止访问。

1.7K9 0

Python——爬虫入门 Urllib库的进阶

所以我们今天的第一段代码就是展示如何构造这个User-Agent的请求头： import urllib import urllib2 url = 'http://originalix.github.io...，分别对应着错误消息和错误代码。...我们可以用try/except语句来捕获异常，例如: # URLError import urllib2 req = urllib2.Request = ('http://www.lixxxxxxxx.com...应答都会携带着一个包含数值的状态码，例如我们耳熟能详的200、404(页面丢失)、403(请求被禁止)等等。...# 同时处理HTTPError和URLError import urllib2 url = 'http://www.lixxxxxxxx.com' req = urllib2.Request(url

5363 0

python爬虫(七)_urllib2：urlerror和httperror

urllib2的异常错误处理在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。...#urllib2_urlerror.py import urllib2 request = urllib2.Request("http://www.sdfsdfsf.com") try: urllib2..._urllib2_httperror.py import urllib2 request = urllib2.Request("http://blog.baidu.com/itcast") try...Error 404:Not Found HTTP Error，错误代号是404，错误原因是Not Found,说明服务器无法找到被请求的页面。...这个错误代码为 IIS 6.0 所专用。 402 Payment Required 此代码尚无法使用。 403 Forbidden 对被请求页面的访问被禁止。 403.1 执行访问被禁止。

2.3K8 0

urllib与urllib2的学习总结(python2.7.X)

我们则重点关注HTTP。　　在简单的情况下，我们会使用urllib2模块的最常用的方法urlopen。但只要打开HTTP URL时遇到错误或异常的情况下，就需要一些HTTP传输协议的知识。...创建openers时如果想要安装特别的handlers来实现获取url（如获取一个处理cookie的opener，或者一个不处理重定向的opener）的话，先实例一个OpenerDirector对象，然后多次调用...典型的错误包含‘404’ (没有找到页面), ‘403’ (禁止请求),‘401’ (需要验证)等。它包含2个重要的属性reason和code。　　...当一个错误被抛出的时候，服务器返回一个HTTP错误代码和一个错误页。你可以使用返回的HTTP错误示例。...（错误码范围在300内），错误码在100-299范围内的表示请求成功，所以通常会看到的错误代码都是在400-599的范围内。

7412 0

Python：urllib2模块的URLError与HTTPError

urllib2 的异常错误处理在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。...下面的例子里我们访问了一个不存在的域名： # urllib2_urlerror.py import urllib2 requset = urllib2.Request('http://www.ajkfhafwjqh.com...注意，urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。...# urllib2_httperror.py import urllib2 requset = urllib2.Request('http://blog.baidu.com/itcast') try...这个错误代码为 IIS 6.0 所专用。 402 Payment Required 此代码尚无法使用。 403 Forbidden 对被请求页面的访问被禁止。 403.1 执行访问被禁止。

2.3K1 0

自学Python四爬虫基础知识储备

下面看一个最简单的例子： 1 import urllib2 2 response = urllib2.urlopen('http://www.baidu.com/') 3 html = response.read...上面的代码我们可以写成这样： 1 import urllib2 2 3 request = urllib2.Request("http://www.baidu.com") 4 response = urllib2...不过除了上面那些还不够，现在网站为了避免爬虫去访问会进行一些检测，如果检测不通过就不会响应你的请求，为了完全模拟浏览器工作，我们往往要设置一些headers属性，以及防盗链： 1 headers = {...在访问网站的情况下我们可能会遇到一些网站错误，我们要在程序中进行处理(一如既往的try... except...得到错误信息内容)： 1 import urllib2 2 3 req = urllib2...：400 非法请求 403 禁止访问 404 未找到资源 500 服务器内部错误 200 访问成功。

4501 0

Python入门网络爬虫之精华版

比如说你输入http://www.lining0806.com/，你就会看到宁哥的小站首页。简单来说这段过程发生了以下四个步骤：查找域名对应的IP地址。向IP对应的服务器发送请求。...= httplib2.Http() response_headers, content = http.request(url, 'GET') print "response headers:...proxies = {'http':'http://XX.XX.XX.XX:XXXX'} Requests： import requests response = requests.get(url...它的工作原理是：从网页的url加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载更多的内容，“填充”到网页里。...Robots协议举例禁止所有机器人访问 User-agent: * Disallow: / 允许所有机器人访问 User-agent: * Disallow: 禁止特定机器人访问

1.1K2 0

手把手教你利用爬虫爬网页（Python代码）

网络爬虫结构下面用一个通用的网络爬虫结构来说明网络爬虫的基本工作流程，如图3-4所示。 ▲图3-4 网络爬虫结构网络爬虫的基本工作流程如下：首先选取一部分精心挑选的种子URL。...在使用服务器提供的RESTful或SOAP服务时，Content-Type设置错误会导致服务器拒绝服务。...但是我们一般不采用这种方式，而是使用ProxyHandler在程序中动态设置代理，示例代码如下： import urllib2 proxy = urllib2.ProxyHandler({ ‘http...=True) 将allow_redirects设置为True，则是允许重定向；设置为False，则是禁止重定向。...希望大家对本文中的网络爬虫工作流程和Requests实现HTTP请求的方式重点吸收消化。本文摘编自《Python爬虫开发与项目实战》，经出版方授权发布。

2.1K1 0

python使用urllib2抓取防爬取链接

写了那么多篇找工作的文章，再写几篇就完了，也算是对自己一段时间的一个总结。近来发现自己博客上python技术点的文章有点少，为了防止自己总是遗忘，还是写出来的好。...开始了一般情况下用python的童鞋是不可避免的要写一些爬虫程序的，因此对python中urllib和urllib2都比较熟悉。...而最基本的爬取方法就是： urllib.urlopen(url).read() 大多数网站都不会禁止这样的爬取，但是有些网站都设定了禁止爬虫爬取，当然这样一方面是为了保护内容的版权，另一方面也是为了方式过多的爬虫造成网站流量的白白浪费...下面的函数通过urllib2来模拟浏览器访问链接爬取内容： def get_url_content(url): i_headers = {"User-Agent": "Mozilla/5.0 (...headers=i_headers) return urllib2.urlopen(req).read() 仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到urllib2

8052 0

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。...urllib2 的异常错误处理 URLError import urllib2 requset = urllib2.Request('http://www.ajkfhafwjqh.com') try...注意，urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。...2.具体代码操作代码操作（一）自定义数据请求方式 # -*- coding:utf-8 -*- import urllib2,urllib #创建一个HTPP请求对象 http_handler =...如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

7014 0

python爬虫入门（一）urllib和urllib2

这个错误代码为 IIS 6.0 所专用。 402 Payment Required 此代码尚无法使用。 403 Forbidden 对被请求页面的访问被禁止。 403.1 执行访问被禁止。...403.2 读访问被禁止。 403.3 写访问被禁止。 403.4 要求 SSL。 403.5 要求 SSL 128。 403.6 IP 地址被拒绝。 403.7 要求客户端证书。...423 锁定的错误。 5xx:服务器错误 500 Internal Server Error 请求未完成。服务器遇到不可预知的情况。...这个错误代码为 IIS 6.0 所专用。 500.18 URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。 500.100 内部 ASP 错误。...urllib和urllib2经常一起使用的主要原因）（3）编码工作使用urllib的urlencode()函数，帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串，解码工作可以使用

1.9K6 0

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python代码）

网络爬虫结构下面用一个通用的网络爬虫结构来说明网络爬虫的基本工作流程，如图3-4所示。 ? ▲图3-4 网络爬虫结构网络爬虫的基本工作流程如下：首先选取一部分精心挑选的种子URL。...在使用服务器提供的RESTful或SOAP服务时，Content-Type设置错误会导致服务器拒绝服务。...但是我们一般不采用这种方式，而是使用ProxyHandler在程序中动态设置代理，示例代码如下： import urllib2 proxy = urllib2.ProxyHandler({'http':...=True) 将allow_redirects设置为True，则是允许重定向；设置为False，则是禁止重定向。...希望大家对本文中的网络爬虫工作流程和Requests实现HTTP请求的方式重点吸收消化。

2.5K3 0

解决ModuleNotFoundError: No module named urllib2

'urllib2'这个错误。...所以在Python 3中使用urllib2会导致找不到模块的错误。...import urllibresponse = urllib.request.urlopen(url)通过使用six库，您可以简化兼容性处理的工作，并且可以在Python 2和Python 3...然而，在升级到Python 3后，使用旧的urllib2库会出现ModuleNotFoundError: No module named 'urllib2'的错误。...通过使用urllib.request模块，我们可以在Python 3中成功发送HTTP请求，获取网页内容，避免了ModuleNotFoundError错误。

5884 0

Python 简单爬虫抓取糗事百科

urllib2可以用urllib2.openurl中设置Request参数，来修改Header头。...如果你访问一个网站，想更改User Agent（可以伪装你的浏览器），你就要用urllib2。 ...但由于该网站禁止抓取，只能使用urllib2。 ...BeautifulSoup模块是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。...模块 #p = 1 #定义页 url = 'http://www.qiushibaike.com/text/page/' #定义header my_headers = [ 'Mozilla

3982 0

django queryset 去重 .distinct()说明

补充知识：Python——深入理解urllib、urllib2及requests（requests不建议使用？）...没有，这也是为什么总是urllib，urllib2常会一起使用的原因 r = Request(url='http://www.mysite.com') r.add_header('User-Agent'...#urllib.urlretrieve(url, local_name, method) urllib2 I. urllib2模块定义的函数和类用来获取URL（主要是HTTP的），他提供一些复杂的接口用于处理...典型的错误包含‘404′ (没有找到页面), ‘403′ (禁止请求),‘401′ (需要验证)等。它包含2个重要的属性reason和code。...个人不建议使用requests模块更详细的相关介绍 urllib 官网 urllib2 官网以上这篇django queryset 去重 .distinct()说明就是小编分享给大家的全部内容了，希望能给大家一个参考

1.8K2 0

python爬虫(六)_urllib2：handle处理器和自定义opener

如果在HTTPHandler()括号里面增加debuglevel=1参数，还会将Debug Log打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。...很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问字数多的不像正常人，它会禁止这个IP的访问。...所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。...验证web客户端的用户名和密码(HTTPBasicAuthHandler()) ProxyBasicAuthHandler(代理授权验证) 如果我们使用之前的代码来使用私密代理，会报HTTP 407错误...有些Web服务器(包括HTTP/FTP等)访问时，需要进行用户身份验证，爬虫直接访问会报HTTP 401错误，表示访问身份未经授权： urllib2.HTTPError:HTTP Error 401:Unauthorized

1.1K8 0

Python：爬虫系列笔记(3) -- urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。...12345678910 import urllib import urllib2 url = 'http://www.server.com/login'user_agent = 'Mozilla/...Proxy（代理）的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。...假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！...六出祈山，七进中原，鞠躬尽瘁，死而后已的诸葛亮只因为有一个错误的case-马谡，整个结构就被break了！

7957 0

Python:urllib2模块Handler处理器和自定义Opener

如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。...很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。...所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。...407 错误，表示代理没有通过身份验证： urllib2.HTTPError: HTTP Error 407: Proxy Authentication Required 所以我们需要改写代码，通过：...，爬虫直接访问会报HTTP 401 错误，表示访问身份未经授权： urllib2.HTTPError: HTTP Error 401: Unauthorized 如果我们有客户端的用户名和密码，我们可以通过下面的方法去访问爬取

3182 0

Python基础学习_11_网页爬虫学习总结

二.下载网页使用urllib2模块进行网页的下载，在上一篇博客中，拉取百度百科的词条获得词条对应的url，但url可能已经过期，我们再去拉取会报异常，所以需要使用try-except捕获异常： ?...使用urllib2下载网页的时候，可能会出现异常，其中code为４xx为请求异常，５xx为服务器错误，当URLError的code为5xx时，可以考虑重新发起请求： ?...（２－１）ID遍历爬虫很多网站由于数据挺多，会采用page切换的方式展现数据，类似于： http://www......../page=1 http://www...........我们可以使用爬虫对当前网页中其他词条信息进行抓取，这样就可以爬取得到大量的词条信息，但是我们会发现，爬取到的词条的url链接如下①： ①　|- /view/76320.htm　　相对链接 ②　|- http...（２－４）下载限速有些网站访问对访问速度进行了限制，为了不让爬虫被禁止，需要对爬虫下载网页的速度进行一定的限制： ?

4873 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭