404.1 - 无法找到 Web 站点 HTTP 404- 无法找到文件 HTTP 405 - 资源被禁止 HTTP 406 - 无法接受 HTTP 407 - 要求代理身份验证 HTTP...410 - 永远不可用 HTTP 412 - 先决条件失败 HTTP 414 - 请求 - URI 太长 HTTP 500 - 内部服务器错误 HTTP 500.100 - 内部服务器错误 -...ASP 错误 HTTP 500-11 服务器关闭 HTTP 500-12 应用程序重新启动 HTTP 500-13 - 服务器太忙 HTTP 500-14 - 应用程序无效 HTTP 500-...这个错误代码为 IIS 6.0 所专用。 • 404 - 未找到。 • 404.0 -(无) – 没有找到文件或目录。 • 404.1 - 无法在所请求的端口上访问 Web 站点。...Access(HTTP 403.12 - 禁止访问:映射表拒绝访问) • 404 - 未找到。
大家都熟知的爬虫,爬虫就是请求网页,进行网页的抓取,那么如何进行网页的抓取呢,今天呢,给大家分享一个能够请求网页,进行数据抓取的库,python自带的urllib。...模拟头部信息 我们抓取网页一般需要对 headers(网页头信息)进行模拟,这时候需要使用到 urllib.request.Request 类: class urllib.request.Request...HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers...= urllib.request.urlopen("https://www.baidu.com/no.html") except urllib.error.HTTPError as e: if...e.code == 404: print(404) # 404 urllib.parse urllib.parse 用于解析 URL,格式如下: urllib.parse.urlparse
还有一个小问题,当服务器拒绝的时候,python会当成错误,从而终止了程序,这样就不好玩了,一点都不自动化,解决这个问题也蛮简单,刚才看书才看到try…except…语法,这样把出现的错误都放到except...语句里面不就OK了么,经过本人测试,一般会出现下面两个错误urllib.error.HTTPError和urllib.error.URLError,那这两个错误都弄到except里面就可以啦,哈哈 于是简单的刷一个页面的版本出现啦...但是如果以后七八十篇呢……想想就头疼,还是继续想办法吧 鉴于目前本人的所有博客都在博客主页目录的第一页中,所以直接查看博客目录,然后把每篇博客的网址都提取出来不久OK了么,嗯,说干就干 简单列一下思路: 1, 先抓取博客目录页的网址内容...,一会把前面的部分加上就可以了) 2, 把里面重复的网页过滤掉,这个也简单,使用set()就可以了 3, 把抓取到的网址合并成可以直接进行访问的网址 4, 使用一下刚学的BeautifulSoup...: print('urllib.error.HTTPError') time.sleep(3)#出现错误,停几秒先 except urllib.error.URLError
最常出现的错误代码: 200(成功) 服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。 400(错误请求) 服务器不理解请求的语法。 404(未找到) 服务器找不到请求的网页。...您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于”诊断”标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。
6、Http/1.1 404 Not Found 文件或目录不存在 表示请求文件、目录不存在或删除,设置404错误页时需确保返回值为404。...常有因为404错误页设置不当导致不存在的网页返回的不是404而导致搜索引擎降权。...200号表示网页被下载成功,而404号表示不能成功下载并产生错误。下面是HTTP状态码一览表。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。 ...404(未找到)服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。
请求时,如果 urlopen() 不能处理返回的响应内容,就会产生错误。...① URLError 异常和捕获 URLError 产生的原因主要有以下几种: 没有连接网络; 服务器连接失败; 找不到指定的服务器; 可以使用 try...except 语句捕获相应的异常。...发生错误的原因是没有找到指定的服务器。 ② HttpError 异常和捕获 每个服务器的 HTTP 响应都有一个数字响应码,这些响应码有些表示无法处理请求内容。...") try: urllib.request.urlopen(request) except urllib.error.HTTPError as e: print(e.code) 如果输出了 404...的错误码,表示没有找到这个页面。
如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或 Googlebot 抓取网页时),服务器将会返回 HTTP 状态码响应请求。...一些常见的状态代码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器暂时不可用 下面提供 HTTP 状态代码的完整列表。 点击链接可了解详情。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。 诊断下的网络抓取 页中列出了由于重定向错误而导致 Googlebot 无法抓取的网址。...404 未找到 服务器找不到请求的网页。 例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 尝试抓取的网址看到此状态(在”诊断”标签的 HTTP 错误页上),则表示 Googlebot 追踪的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。
如果向您的服务器发出了某项请求要求显示您网站上的某个网页(例如,当用户通过浏览器访问您的网页或在检测工具抓取该网页时),那么,您的服务器会返回 HTTP 状态代码以响应该请求。...一些常见的状态代码为: · 200 – 服务器成功返回网页 · 404 – 请求的网页不存在 · 503 – 服务器暂时不可用 以下提供了 HTTP 状态代码的完整列表...您可以使用网站站长工具确定 检测工具 是否会在抓取重定向网页时遇到问题。抓取下的抓取错误页列出了由于重定向错误而导致 检测工具 无法抓取的网址。...如果 检测工具 在尝试抓取网站的有效网页时收到此状态代码(您可在 网站站长工具中运行工具下的抓取错误页上进行查看),则可能是因为您的服务器或主机正在阻止 检测工具 进行访问。...404(未找到) 服务器找不到请求的网页。例如,如果相应请求是针对服务器上不存在的网页进行的,那么服务器通常会返回此代码。
常用HTTP状态码简介 一些常见的状态代码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器暂时不可用 以下提供了 HTTP 状态代码的完整列表。...您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于"诊断"标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。...该代码与 404(未找到)代码类似,但在资源以前存在而现在不存在的情况下,有时会用来替代 404 代码。如果资源已永久移动,您应使用 301 指定资源的新位置。
如果客户端向服务器发出了某项请求要求显示网站上的某个网页,那么,服务器会返回 HTTP 状态代码以响应该请求。...一些常见的状态代码为: 200 - 服务器成功返回网页 403 - 请求的网页禁止访问 404 - 请求的网页不存在 503 - 服务器暂时不可用 1xx(临时响应),用于表示临时响应并需要请求者执行操作才能继续的状态代码...如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的网页进行的,那么,服务器通常会返回此代码。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于"诊断"标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果网页自请求者上次请求后再也没有更改过,您应将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。...505(HTTP 版本不受支持) 服务器不支持请求中所用的 HTTP 协议版本。
由于服务器可以告诉 搜索引擎自从上次抓取后网页没有更改过,因此可节省带宽和开销。 305(使用代理) 请求者只能使用代理访问请求的网页。...400(错误请求) 服务器不理解请求的语法。 401(身份验证错误) 此页要求授权。您可能不希望将此网页纳入索引。 403(禁止) 服务器拒绝请求。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...例如:http://www.0631abc.com/20100aaaa,就会进入404错误页面 405(方法禁用) 禁用请求中指定的方法。...505(HTTP 版本不受支持) 服务器不支持请求中所使用的 HTTP 协议版本。
否则会一直显示抓取 Tunnel 信息包... 好了,完成了准备工作,我们直接上一段代码理解下。...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是...因为各种反爬机制会检测同一IP爬取网页的频率速度,如果速度过快,就会被认定为机器人,但是速度过慢又会影响爬取的速度,因此,我们将使用代理IP取代我们自己的IP,这样不断更换新的IP地址就可以达到快速爬取网页而降低被检测为机器人的目的了...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误编码是
但是假如说问: 这个信息分析,建立索引是怎样的一个过程,这个我也不清楚,有的文献找不到,找到了也看不了。。。...Http状态码:状态代码(也称作错误代码),指为服务器所接收每个请求(网页点击)分配的 3 位数代码。多数有效网页点击都有状态代码 200("正常")。"网页未找到"错误会生产 404 错误。...设定正确的页面HTTP状态码: 此前网站存在一批垃圾页面,全部做成不能打开的状态。但是页面状态码没有返回404,而是返回200,而且每天还有蜘蛛大量去抓取。...好家伙,从抓取量分配的角度来看,就极大的浪费了蜘蛛抓取量,同时还造成蜘蛛的误解,认为网站存在大量重复的页面。 服务器过载或者临时维护时,无法处理请求时,请返回503,而不是404。...搜索引擎蜘蛛对503的解读是网站临时关闭,某个页面暂时不能访问,过段时间会再回来抓取。如果是做了404,搜索引擎则可能删除了页面。
目录 什么是爬虫 编辑器的选择 mac 操作 简单爬虫代码 一些轮子 总结 学习的链接 尾声 什么是爬虫 爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 为什么是python?...import urllib.request response = urllib.request.urlopen(‘http://python.org/’) result = response.read...(‘http://python.org/’, headers=headers) html = urllib.request.urlopen(response) result = html.read(...一段加入try…exception结构的网页爬虫网页 import urllib.requestimport urllib.error try: headers = {} response =...’ + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, ‘code’): print(‘错误状态码是’ + str
目录 什么是爬虫 编辑器的选择 mac 操作 简单爬虫代码 一些轮子 总结 学习的链接 尾声什么是爬虫爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为什么是python?...import urllib.request response = urllib.request.urlopen('http://python.org/') result = response.read...decode('utf-8') print(result) 反馈异常错误非常关键,避免在爬取的过程中被打断而终止。...一段加入try...exception结构的网页爬虫网页 import urllib.requestimport urllib.error try: headers = {} response...' + str(e.reason)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print('错误状态码是
html = opener.open(url).read().decode('utf-8') allfinds = p.findall(html) print(allfinds) urlBase = "http...= list(set(allfinds)) for i in range(len(mypages)): mypages[i] = urlBase+mypages[i] print('要刷的网页有...:') for index , page in enumerate(mypages) : print(str(index), page) #设置每一个网页要刷的次数 brushMax = 200...: print('urllib.error.HTTPError') time.sleep(1)#出现错误。...except urllib.error.URLError: print('urllib.error.URLError') time.sleep(1)#出现错误
response = self.s.post(url, data=data, headers=self.headers, proxies=proxies, timeout=90) #错误则进行休眠...print('无法连接网络,正在进行第%d次尝试' % z) time.sleep(random.randint(3, 7)) #判断已经访问错误几次了...print('三次未访问成功的网站:', url) # 这里将无法访问3次则记录错误信息日志记录 return 404...#网页中可能本身存在404,找不到网页的情况,这种时候直接返回404 else: if response.status_code == 404:...return 404 #正常情况,返回的是网页源码,解码格式我直接采用了utf-8,可根据网站需要更换
HTTP 304状态码的详细讲解 304状态码或许不应该认为是一种错误,而是对客户端有缓存情况下服务端的一种响应。...404 – 请求的网页不存在 503 – 服务器超时 下面提供 HTTP 状态码的完整列表。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。...如果对于 Googlebot 抓取的网址看到此状态码(在”诊断”标签的 HTTP 错误页面上),则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。
领取专属 10元无门槛券
手把手带您无忧上云