开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何防止Python的urllib遵循重定向

在使用 Python 的 urllib 库时，如果你想防止它遵循 HTTP 重定向，可以通过自定义一个 HTTPRedirectHandler 来实现。你可以覆盖 HTTPRedirectHandler 的 http_error_302 和 http_error_301 方法，使其在遇到重定向时抛出异常或执行其他操作。

以下是一个示例，展示了如何防止 urllib 遵循重定向：

import urllib.request
import urllib.error

class NoRedirectHandler(urllib.request.HTTPRedirectHandler):
    def http_error_302(self, req, fp, code, msg, headers):
        raise urllib.error.HTTPError(req.full_url, code, msg, headers, fp)

    def http_error_301(self, req, fp, code, msg, headers):
        raise urllib.error.HTTPError(req.full_url, code, msg, headers, fp)

# 创建一个自定义的 opener
opener = urllib.request.build_opener(NoRedirectHandler())

# 使用自定义的 opener 进行请求
url = 'http://example.com'  # 替换为你要请求的 URL

try:
    response = opener.open(url)
    content = response.read()
    print(content)
except urllib.error.HTTPError as e:
    if e.code in (301, 302):
        print(f"Redirect detected to {e.headers['Location']}")
    else:
        print(f"HTTP Error: {e.code} - {e.reason}")
except Exception as e:
    print(f"Error: {e}")

在这个示例中，我们定义了一个 NoRedirectHandler 类，继承自 urllib.request.HTTPRedirectHandler，并覆盖了 http_error_302 和 http_error_301 方法，使其在遇到 302 或 301 重定向时抛出 HTTPError 异常。

然后，我们使用 urllib.request.build_opener 创建一个自定义的 opener，并使用这个 opener 进行 HTTP 请求。如果请求过程中遇到重定向，程序会捕获到 HTTPError 异常，并输出重定向的目标 URL。

这样，你就可以防止 urllib 遵循重定向，并根据需要处理重定向的情况。

相关搜索:如何在grequests中遵循重定向？如何在python3 urllib.request中禁用自动重定向？Python 3 urllib.request捕获和/或停止重定向 urllib.parse与urlparse:如何让python2.7识别urllib？遵循jquery get()方法中的重定向URL 使用Python urllib的Post请求如何防止IFRAME重定向顶级窗口如何防止Google云存储重定向 python urllib.request中的HTTPerror 如何使用Python请求或urllib登录页面如何防止网络爬虫301重定向 python3中的urllib异常处理如何在python 3.8.2上安装urllib.request 如何在Python 3中从urllib使用basejoin Python Scrapy Spider未遵循正确的链接 Python -如何填充遵循嵌套层次结构的列表字典？如何创建遵循路线的对象？如何防止.htaccess重定向中的一个文件？如何防止用户被重定向至JavaScript中的链接？如何在Python中使用urllib或request进行Google

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python的urllib库

urllib是python自带的请求库，各种功能相比较之下也是比较完备的，urllib库包含了一下四个模块：urllib.request 请求模块urllib.error 异常处理模块urllib.parse...url解析模块urllib.robotparse robots.txt解析模块下面是一些urllib库的使用方法。...response.read().decode('utf-8')) 使用read()方法打印网页的HTML，read出来的是字节流,需要decode一下import urllib.requestresponse...headers的方法若要使用动态追加的方法，必须实例化Request这个类import urllib.requestimport urllib.parseurl = 'http://httpbin.org...下的一个类，借助这个类可以构造代理请求参数为一个dict形式的，key对应着类型，IP，端口import urllib.requestproxy_handler = urllib.request.ProxyHandler

1K3 0

Python urllib2和urllib的使用

在Python中有很多库可以用来模拟浏览器发送请求抓取网页，本文中介绍使用urllib2来实现获取网页数据。...urllib2是在Python2标准库中的，无需安装即可使用，在Python3中不能使用urllib2，在Python3中urllib2被改为了urllib.request，所以本文中的代码在Python3...中运行时，把urllib2替换成urllib.request，得到的结果是一样的。...这时候需要在url中拼接查询字符串，Python的urllib库提供了urlencode方法来将字典转换成查询字符串，而urllib2没有urlencode，所以可以通过urllib生成查询字符串来给urllib2...获取到的页面与我们在百度首页搜索python的页面相同。 ? 四、使用urllib2发送POST请求上面的例子中，我们使用的都是GET方法，接下来我们使用POST方法。

1.1K4 0

python中urllib的使用

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。...在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面了，以先来看下urlopen函数基本的使用： from urllib import request...像豆瓣这样的网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。...豆瓣爬取还需要进行账号登陆后才能进行相应的操作，这里就会涉到如何控制一个代理IP怎么进行登陆爬取等一系列操作并且不换IP。...这种情况我们可以通过使用python+urllib2+Proxy-Tunnel保持IP不变,同时通过多线程处理urllib中通过ProxyHandler来设置使用代理服务器，下面代码说明如何实现这些需求

2832 0

Python如何防止sql注入

那么在Python web开发的过程中sql注入是怎么出现的呢，又是怎么去解决这个问题的？...这里并不想讨论其他语言是如何避免sql注入的，网上关于PHP防注入的各种方法都有，Python的方法其实类似，这里我就举例来说说。起因漏洞产生的原因最常见的就是字符串拼接了。...这个方法里面没有直接使用字符串拼接，而是使用了 %s 来代替要传入的参数，看起来是不是非常像预编译的sql？那这种写法能不能防止sql注入呢？...解决两种方案 1.对传入的参数进行编码转义 2. 使用Python的MySQLdb模块自带的方法第一种方案其实在很多PHP的防注入方法里面都有，对特殊字符进行转义或者过滤。...这里 execute 执行的时候传入两个参数，第一个是参数化的sql语句，第二个是对应的实际的参数值，函数内部会对传入的参数值进行相应的处理防止sql注入，实际使用的方法如下： preUpdateSql

3.5K6 0

python中urllib的整理

本不想使用这个玩意，奈何看到很多地方使用，随手整理下 urllib模块提供的urlretrieve()函数，urlretrieve()方法直接将远程数据下载到本地 urlretrieve(url, filename...(filename, headers) 元组，filename 表示保存到本地的路径，header表示服务器的响应头 urlopen一般常用的有三个参数： urllib.requeset.urlopen...直接用urllib.request模块的urlopen（）获取页面，req的数据格式为bytes类型，需要decode（）解码，转换成str类型 import urllib.request import...\.jpg)" pic_ext',req) x=0 for i in r: local='F://python/' urllib.request.urlretrieve(i,local+...'%s.jpg' % x) x=x+1 浏览器的模拟（需要添加headers头信息，urlopen不支持，需要使用Request） import urllib.request url='http

3883 0

【Python爬虫】Urllib的使用（2）

写在前面这是第二篇介绍爬虫基础知识的文章，之前的文章【Python爬虫】初识爬虫（1）主要是让大家了解爬虫和爬虫需要的基础知识，今天主要给大家介绍Urllib的使用。....x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse 在Pytho2.x中使用import urlopen——-对应的，在Python3...——-对应的，在Python3.x中会使用http.CookieJar 在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request...Handler：处理更加复杂的页面使用代理的优点：让服务器以为不是同一个客户段在请求，防止我们的真实地址被泄露，以下是添加一个代理的案例。...") 异常处理引入异常处理为了捕获异常，保证程序稳定运行，下面的例子可以教大家如何使用异常处理。

6495 0

urllib与urllib2的学习总结(python2.7.X)

默认情况下，urlib2把自己识别为Python-urllib/x.y（这里的xy是python发行版的主要或次要的版本号，如在Python 2.6中，urllib2的默认用户代理字符串是“Python-urllib...每一个handler知道如何以一种特定的协议（http，ftp等等）打开url，或者如何处理打开url发生的HTTP重定向，或者包含的HTTP cookie。...://www.python.org/ ”说明没有被重定向。　　...具体错误码的说明看附录。　　写到这上面多次提到了重定向，也说了重定向是如何判断的，并且程序对于重定向时默认处理的。...如何禁止程序自动重定向呢，我们可以自定义HTTPRedirectHandler 类，代码参考如下： 1 class SmartRedirectHandler(urllib2.HTTPRedirectHandler

7862 0

如何使用python+urllib库+代理IP访问网站

python 写爬虫获取数据资料是方便的，但是很多网站设置了反爬虫机制，最常见的就是限制 IP 频繁请求了，只要某个 IP 在单位时间内的请求次数超过一定值，网站就不再正常响应了，这时，我们的 python...对于这种情况最简单的方式就是使用代理(proxy)。...但是使用还是会出现一些问题，比如下面的例子在爬虫端使用urllib.request爬取网站并且添加了代理池的时候，发现有些网站会出现“无法访问此网站”的情况（代理是可用的，防火墙已关闭），我们可以从以下一些方面找原因...图片1、自己的代理池提供的时候出问题了2、IP挂了（被反爬）3、网站有反爬措施，最简单的是浏览器头验证4、劣质代理（网速太慢根本打不开网页）这里我们可以换个付费高质量的代理，并且通过python+urllib...-- encoding:utf-8 -- from urllib import request import threading # 导入threading库，用于多线程 import time # 导入

1.4K3 0

【说站】python如何防止栈溢出

python如何防止栈溢出说明使用递归函数的优点是逻辑简单清晰，缺点是过深的调用会导致栈溢出。 1、调用栈溢出的方法是通过尾递归优化，事实上尾递归和循环的效果是一样的。...2、把循环看成是一种特殊的尾递归函数也是可以的。...==> fact_iter(4, 5) ===> fact_iter(3, 20) ===> fact_iter(2, 60) ===> fact_iter(1, 120) ===> 120 以上就是python...防止栈溢出的方法，希望对大家有所帮助。...更多Python学习指路：python基础教程本文教程操作环境：windows7系统、Python 3.9.1，DELL G3电脑。

4743 0

Python——爬虫入门 Urllib库的使用

最近在系统的学习Python爬虫，觉得还是比较有意思的，能够干很多的事情，所以也写点文章记录一下学习过程，帮助日后回顾。...网上关于Python的爬虫文章、教程特别多，尤其是喜欢刷知乎的用户，我总是感觉其他语言都是讨论xx框架如何，xx如何进阶，而Pythoner一开专栏，保准是xx爬虫入门教学，于是想零基础的入门Python...爬虫的功能往简单的说就是把网页源代码想办法爬下来，然后分析我们需要的内容，总结起来就是两个部分：爬！提取。所以整个过程里需要掌握的技能就是如何爬，以及爬到之后如何处理。...所以今天的入门文章里，我们就不去介绍第三方库的工具如何使用，我们来看看Python自带的标准库——Urllib库。...那我们就从第一个网页的爬取入手，现在我们首先打开我们的编辑器，创建一个Python文件，并且在里面写入如下代码： import urllib2 response = urllib2.urlopen(

6771 0

python中的urllib模块中的方法

python urllib.request之urlopen函数 urllib是基于http的高层库，它有以下三个主要功能：（1）request处理客户端的请求（2）response处理服务端的响应...（3）parse会解析url 下面讨论的是request urllib.request模块定义了一些打开URLs（一般是HTTP协议）复杂操作像是basic 和摘要模式认证，重定向，cookies等的方法和类...简介 urllib2是python自带的一个访问网页及本地文件的库。 ...404 u.geturl() 返回所返回的数据的实际url，但是会考虑发生的重定向问题 u.info() 返回映射对象，该对象带有与url关联的信息。...和urllib2模块之间的区别在python中，urllib和urllib2不可相互替代的。

2.2K1 0

Python——爬虫入门 Urllib库的进阶

上一篇文章我们简单讲解了Urllib库的基础用法，包括如何获取请求之后的页面响应，如何使用POST请求上传数据，今天我们就来讲讲Urllib库的几个进阶用法。...Headers: 我们先讨论关于请求头的使用，如何构造HTTP-Headers。我们先进入Chrome浏览器打开调试模式， ?...所以我们今天的第一段代码就是展示如何构造这个User-Agent的请求头： import urllib import urllib2 url = 'http://originalix.github.io...') try: urllib2.urlopen(req) except urllib2.URLError as e : print e.reason 在接触URLError之前，大家一定更早的接触过...最后诸如代理什么的也就不讲解了，因为我觉得使用到这些的时候，大家可能就不会使用urllib2这个库了，有更好的轮子在等着你们。放上urllib2库的官方文档，有不懂的可以速查哟。

5533 0

Python爬虫核心模块urllib的学习

因为是为了自己复习起来方便~所以就不一句英语一句中文的对照着翻了，有兴趣看原版的，自己点官方文档吧~ Python 3.x版本后的urllib和urllib2 现在的Python...() urllib和urllib2模块之间的区别在python中，urllib和urllib2不可相互替代的。...urllib一般和urllib2一起搭配使用官方文档地址翻译的是Python 3.5.2版本，对应的urllib https://docs.python.org/3.5/library/urllib.html...urllib.request模块定义了方法和类,帮助打开url(主要是HTTP)在一个复杂的世界——基本和摘要式身份验证,重定向,cookies等等。...遗留的 urllib.urlopen从Python 2.6和更早已经被中断;；urllib.request.urlopen()对应于旧的 urllib2.urlopen。

8115 0

Python 中的 urllib2 模块

通过python 的 urllib2 模块，可以轻易的去模拟用户访问网页的行为。这里将自己的学习过程简单的记录下来。...它的基本用法同urllib 库中的用法是一样的。...但不同于urllib 的是，urllib2 中的urlopen函数的第一个参数url 可以是一个Request 实例。...1、基本用法 Example: #等同urllib 中的urlopen 函数的用法 In [12]: response = urllib2.urlopen('http://www.baidu.com'...) In [13]: response.read() # urllib2 中的使用request 实例的用法 In [14]: request = urllib2.Request('http://www.baidu.com

2.8K1 0

python urllib的基本使用之urlopen()

urllib.request模块提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时还带有处理授权验证、重定向、浏览器Cookies等内容。...举个例子，把python官网抓下来： import urllib.request response = urllib.request.urlopen('https://www.python.org')...print(response.read().decode('utf-8')) 然后后就会在控制台看到输出的html文件的信息。...查看请求头 import urllib.request response = urllib.request.urlopen('https://www.python.org') print(response.getheaders...，比如获得server属性，那么就这样写 print(response.getheader('Server')) 返回的是 nginx, 说明服务器用的是nginx

3582 0

Python爬虫笔记：如何防止爬虫被限制

为了应对这一问题，本文将为您介绍如何使用代理服务器来防止爬虫被限的情况发生。　　一、了解代理服务器　　代理服务器是充当客户端和目标服务器之间的中间人，转发网络请求。...通过使用代理服务器，我们可以隐藏真实的IP地址，以达到防止被封禁的目的。　　二、寻找可靠的代理服务器　　在使用代理服务器之前，我们需要找到可靠的代理服务器。...有些代理服务器是免费的，但可靠性和稳定性较低，而付费代理服务器通常更为稳定和安全。您可以通过搜索引擎或专业的代理服务提供商来获取代理服务器列表。　　...您可以使用以下命令安装这些库：　　```　　pip install requests　　```　　四、编写使用代理的爬虫代码　　以下是一个示例代码，演示如何使用代理服务器进行爬虫：　　```python...五、运行代码，使用代理进行爬虫　　将替换了URL和代理配置的代码保存为Python脚本，运行代码后，您将使用代理服务器进行爬虫，从目标网址获取数据。

3012 0

Python爬虫之Urllib库的基本使

# get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read...().decode('utf-8')) # post请求 import urllib.parse import urllib.request data = bytes(urllib.parse.urlencode...response = urllib.request.urlopen('http://www.python.org') print(type(response)) # 状态码、响应头 import urllib.request...response = urllib.request.urlopen('http://www.python.org') print(response.status) print(response.getheaders...('http://python.org') response = urllib.request.urlopen(request) print(response.read().decode('utf-8'

5542 0

Python 的 urllib.parse 库解析 URL

Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数。解析url urlparse() 函数可以将 URL 解析成 ParseResult 对象。...query=queryarg#fragment 相对路径转换绝对路径除此之外， urllib.parse 还提供了一个 urljoin() 函数，来将相对路径转换成绝对路径的 URL。...使用 urlencode() 函数可以将一个 dict 转换成合法的查询参数： from urllib.parse import urlencode query_args = { 'name...---- 1、获取url参数 >>>from urllib import parse >>> url =r'[https://docs.python.org/3.5/search.html?...q=parse&check_keywords=yes&area=default](https://docs.python.org/3.5/search.html?

3.3K2 0

Python3 Urllib库的基本使用

一、什么是Urllib 　　Urllib库是Python自带的一个http请求库，包含以下几个模块： urllib.request　　　　请求模块 urllib.error　　　　异常处理模块...二、Urllib方法介绍　　将结合Urllib的官方文档进行说明。..."Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "User-Agent": "Python-urllib...示例代码4： 1 # response有用的方法或参数 2 import urllib.request 3 4 response = urllib.request.urlopen('http://www.python.org...所以再次建议，官方文档是最好的学习工具。 urllib.parse.urlencode() 　　urlencode()方法将字典转换成url的query参数形式的字符串。

1.2K1 0

Python|urllib库的一些应用

Python在用于爬虫时，在许多的关于爬虫的教程中，重点介绍并使用的是一个HTTP客户端库，requests库。然而，本篇文章介绍的是另外一个用来数据抓取的库：urllib库。...关于urllib库，的确是一个很尴尬的库。它在Python不同版本中有很明显的区别，还有在实际的开发应用中，最头痛的就是版本之间互不兼容的问题。...由于Python 3更加的健全稳定，因此，本文中所谈的urllib针对的是Python 3。作为Python自带的一个标准库，它不需要安装，在使用时，直接导入即可。...urllib是一个通过几个模块来使用URL的软件包。它主要有以下几个功能： urllib.request:用于打开和读取URL。...urllib.error:包含提取例外的urllib.request。 urllib.parse:用于解析URL。 urllib.robotparse:用于解析robots.txt文件。

4143 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭