首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【测试开发】python系列教程:urllib

大家都熟知的爬虫,爬虫就是请求网页,进行网页抓取,那么如何进行网页抓取呢,今天呢,给大家分享一个能够请求网页,进行数据抓取的库,python自带的urllib。...模拟头部信息 我们抓取网页一般需要对 headers(网页头信息)进行模拟,这时候需要使用到 urllib.request.Request 类: class urllib.request.Request...HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers...= urllib.request.urlopen("https://www.baidu.com/no.html") except urllib.error.HTTPError as e: if...e.code == 404: print(404) # 404 urllib.parse urllib.parse 用于解析 URL,格式如下: urllib.parse.urlparse

17330
您找到你想要的搜索结果了吗?
是的
没有找到

Python 刷网页访问量

还有一个小问题,当服务器拒绝的时候,python会当成错误,从而终止了程序,这样就不好玩了,一点都不自动化,解决这个问题也蛮简单,刚才看书才看到try…except…语法,这样把出现的错误都放到except...语句里面不就OK了么,经过本人测试,一般会出现下面两个错误urllib.error.HTTPError和urllib.error.URLError,那这两个错误都弄到except里面就可以啦,哈哈 于是简单的刷一个页面的版本出现啦...但是如果以后七八十篇呢……想想就头疼,还是继续想办法吧 鉴于目前本人的所有博客都在博客主页目录的第一页中,所以直接查看博客目录,然后把每篇博客的网址都提取出来不久OK了么,嗯,说干就干 简单列一下思路: 1,  先抓取博客目录页的网址内容...,一会把前面的部分加上就可以了) 2,  把里面重复的网页过滤掉,这个也简单,使用set()就可以了 3,  把抓取到的网址合并成可以直接进行访问的网址 4,  使用一下刚学的BeautifulSoup...:   print('urllib.error.HTTPError')               time.sleep(3)#出现错误,停几秒先 except urllib.error.URLError

3.3K20

错误代码大全【100(临时响应)】【200(成功)】【300(已重定向)】【400(请求错误)】【500(服务器错误)】(HTTP协议版本)

最常出现的错误代码: 200(成功) 服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。 400(错误请求) 服务器不理解请求的语法。 404(未找到) 服务器找不到请求的网页。...您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于”诊断”标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。

4.1K10

http状态代码含义

如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或 Googlebot 抓取网页时),服务器将会返回 HTTP 状态码响应请求。...一些常见的状态代码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器暂时不可用 下面提供 HTTP 状态代码的完整列表。 点击链接可了解详情。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。 诊断下的网络抓取 页中列出了由于重定向错误而导致 Googlebot 无法抓取的网址。...404 未找到 服务器找不到请求的网页。 例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 尝试抓取的网址看到此状态(在”诊断”标签的 HTTP 错误页上),则表示 Googlebot 追踪的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。

1K20

HTTP协议状态码

如果向您的服务器发出了某项请求要求显示您网站上的某个网页(例如,当用户通过浏览器访问您的网页或在检测工具抓取网页时),那么,您的服务器会返回 HTTP 状态代码以响应该请求。...一些常见的状态代码为: ·         200 – 服务器成功返回网页 ·         404 – 请求的网页不存在 ·         503 – 服务器暂时不可用 以下提供了 HTTP 状态代码的完整列表...您可以使用网站站长工具确定 检测工具 是否会在抓取重定向网页时遇到问题。抓取下的抓取错误页列出了由于重定向错误而导致 检测工具 无法抓取的网址。...如果 检测工具 在尝试抓取网站的有效网页时收到此状态代码(您可在  网站站长工具中运行工具下的抓取错误页上进行查看),则可能是因为您的服务器或主机正在阻止 检测工具 进行访问。...404(未找到) 服务器找不到请求的网页。例如,如果相应请求是针对服务器上不存在的网页进行的,那么服务器通常会返回此代码。

1.1K30

常用HTTP状态码简介

常用HTTP状态码简介 一些常见的状态代码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器暂时不可用 以下提供了 HTTP 状态代码的完整列表。...您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于"诊断"标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。

2K60

http协议的各类状态码

您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。...该代码与 404(未找到)代码类似,但在资源以前存在而现在不存在的情况下,有时会用来替代 404 代码。如果资源已永久移动,您应使用 301 指定资源的新位置。

1.2K80

HTTP状态码查询

如果客户端向服务器发出了某项请求要求显示网站上的某个网页,那么,服务器会返回 HTTP 状态代码以响应该请求。...一些常见的状态代码为: 200 - 服务器成功返回网页 403 - 请求的网页禁止访问 404 - 请求的网页不存在 503 - 服务器暂时不可用 1xx(临时响应),用于表示临时响应并需要请求者执行操作才能继续的状态代码...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到)  服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于"诊断"标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。

1.7K100

teg http 返回码含义

您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。...505(HTTP 版本不受支持) 服务器不支持请求中所用的 HTTP 协议版本。

1.1K20

Python爬虫之urllib库—进阶篇

否则会一直显示抓取 Tunnel 信息包... 好了,完成了准备工作,我们直接上一段代码理解下。...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是...因为各种反爬机制会检测同一IP爬取网页的频率速度,如果速度过快,就会被认定为机器人,但是速度过慢又会影响爬取的速度,因此,我们将使用代理IP取代我们自己的IP,这样不断更换新的IP地址就可以达到快速爬取网页而降低被检测为机器人的目的了...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是

50910

徐大大seo:为什么服务端渲染有利于SEO与服务器对SEO的影响有哪些?

但是假如说问: 这个信息分析,建立索引是怎样的一个过程,这个我也不清楚,有的文献找不到,找到了也看不了。。。...Http状态码:状态代码(也称作错误代码),指为服务器所接收每个请求(网页点击)分配的 3 位数代码。多数有效网页点击都有状态代码 200("正常")。"网页未找到"错误会生产 404 错误。...设定正确的页面HTTP状态码: 此前网站存在一批垃圾页面,全部做成不能打开的状态。但是页面状态码没有返回404,而是返回200,而且每天还有蜘蛛大量去抓取。...好家伙,从抓取量分配的角度来看,就极大的浪费了蜘蛛抓取量,同时还造成蜘蛛的误解,认为网站存在大量重复的页面。 服务器过载或者临时维护时,无法处理请求时,请返回503,而不是404。...搜索引擎蜘蛛对503的解读是网站临时关闭,某个页面暂时不能访问,过段时间会再回来抓取。如果是做了404,搜索引擎则可能删除了页面。

94500

HTTP 304状态码的详细讲解

HTTP 304状态码的详细讲解 304状态码或许不应该认为是一种错误,而是对客户端有缓存情况下服务端的一种响应。...404 – 请求的网页不存在 503 – 服务器超时 下面提供 HTTP 状态码的完整列表。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。

3.9K20
领券