使用urllib抓取Web并修复403:禁止_使用urllib的Web抓取获取错误(HTTP错误403:禁止)_Web抓取错误(HTTP错误403:禁止) - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

服务器屏蔽爬虫的方案

进服务器后进入这个路径 nginx/conf 新建一个文件，文件名可以为：agent_deny.conf 复制以下代码到此文件：

02

【说站】nginx宝塔面板如何屏蔽垃圾蜘蛛禁止抓取不影响火车头发布

最近查看服务器日志，发现一些垃圾蜘蛛，一直爬行很多，比如以下这些垃圾，太烦人了，就想着如何屏蔽这些垃圾蜘蛛，但是想着不影响火车头的发布。查了一些资料，下面把技巧分享给大家。

04

您找到你想要的搜索结果了吗？

是的

没有找到

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守 robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛（YisouSpider）（最新补充：宜搜蜘蛛已被 UC 神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！==>相关文章)。最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。一、Apache ①、通过修改 .htacce

05

反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛（YisouSpider）（最新补充：宜搜蜘蛛已被UC神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！==>相关文章)。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。

01

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf

02

Python抓取中文网页

早就有想法把博客每天的访问流量记下来，刚好现在申请了GAE的应用，又开始学Python，正好拿这个练手。打算先利用Python把访问记录保存在本地，熟悉之后可以部署到GAE，利用GAE提供的cron就可以每天更近访问流量了。OK，开始~ 　　首先是简单的网页抓取程序：　　[python] view plaincopy import sys， urllib2 　　req = urllib2.Request（"http://blog.csdn.net/nevasun"）　　fd = urllib2.urlo

05

宝塔限制部分不知名蜘蛛爬取

需要在该目录下添加文件 /www/server/nginx/conf/agent_deny.conf

01

设置网站Nginx来增强网站安全性

在宝塔里面设置Ngixn非常简单。这里给出一些网站的保护措施，仅供参考。 #禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA为空的访问 if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Al

01

【python爬虫】python使用代理爬虫例子

原文地址：http://www.cnblogs.com/bbcar/p/3424790.html

01

利用nginx来屏蔽指定的user_agent的访问以及根据user_agent做跳转

对于做国内站的我来说，我不希望国外蜘蛛来访问我的网站，特别是个别垃圾蜘蛛，它们访问特别频繁。这些垃圾流量多了之后，严重浪费服务器的带宽和资源。通过判断user agent，在nginx中禁用这些蜘蛛可以节省一些流量，也可以防止一些恶意的访问。

04

专栏：004：网页下载器的使用

系列爬虫专栏崇尚的学习思维是：输入，输出平衡，且平衡点不断攀升。曾经有大神告诫说：没事别瞎写文章；所以，很认真的写的是能力范围内的，看客要是看不懂，不是你的问题，问题在我，得持续输入，再输出。差不多正式涉及所谓的网页爬虫 1：框架序号内容说明 01 网络爬虫知识概况概念是理解和精进的第一步 02 urllib 简单说明使用方法 03 request 强烈建议入手 04 代码示例使用request爬取博客 05 参考及备注总结与说明 ---- 2：网络爬虫概念网

03

7、web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理

如果爬虫没有异常处理，那么爬行中一旦出现错误，程序将崩溃停止工作，有异常处理即使出现错误也能继续执行下去

08

python抓取不得姐动图（报错 urllib.error.HTTPError: HTTP Error 403: Forbidden）

抓取不得姐动图（报错） # -*- coding:utf-8 -*- #__author__ :kusy #__content__:文件说明 #__date__:2018/7/23 17:01 import urllib.request import re def getHtml(url): page = urllib.request.urlopen(url) html = page.read() # print(html) return html def getImg(

04

Python 网络爬虫概述

几乎每个网站都有一个名为robots.txt的文档，当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面的数据都可以爬取。如果网站有文件robots.txt文档，就要判断是否有禁止访客获取数据如：https://www.taobao.com/robots.txt

02

nginx+uWsgi配置问题的解决

uWSGI 是在像 nginx 、 lighttpd 以及 cherokee 服务器上的一个部署的选择。更多选择见 FastCGI 和独立 WSGI 容器。你会首先需要一个 uWSGI 服务器来用 uWSGI 协议来使用你的 WSGI 应用。 uWSGI 是一个协议，同样也是一个应用服务器，可以提供 uWSGI 、FastCGI 和 HTTP 协议。

00

编写爬虫竟然成了“面向监狱编程”，就是因为不懂Robots协议（爬虫协议）

编写Python爬虫很容易，不过要想安全地编写Python爬虫，就需要了解更多的至少，不光是技术上的，还有法律上的，Robots协议就是其中之一，如果不了解Robots协议，抓取了不该抓取的东西，可能会面临牢狱之灾哦！

02

Apache配置403和404留住用户

1、如果你的服务器支持htaccess文件在htaccess配置添加： ErrorDocument 403 /error/403.html#当然，你必须要确定error以及403和404页面存在 ErrorDocument 404 /404.html#当然你也可以写http://www.03377joyous.com/404.html 注意：千万不要直接把404或者403跳转成首页（这样会有可能会让蜘蛛丢掉你的首页抓取） htaccess功能不仅如此，还可以加上文件夹禁止访问以及密码保护等。慢慢摸索去吧~

04

总结：常用的 Python 爬虫技巧

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用

05

常用的 Python 爬虫技巧总结

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

05

Python 爬虫：8 个常用的爬虫技巧总结！

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

02

Python爬虫：一些常用的爬虫技巧总结

转自：开源中国 http://my.oschina.net/jhao104/blog/647308 用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。 1、基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" response = urllib2.urlo

04

8 个常用的 Python 爬虫技巧，分分钟提高效率！！

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

02

Python爬虫：一些常用的爬虫技巧总结

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

05

干货 | 马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

03

Python爬虫：一些常用的爬虫技巧总结

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。 1、基本抓取网页 get方法 import urllib2 url "http://www.baidu.com" respons = urllib2.urlopen(url) print response.read() post方法 import urllib

07

马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

01

8 个常用的 Python 爬虫技巧，分分钟提高效率！！

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

02

Python爬虫：一些常用的爬虫技巧总结

用Python也差不多一年多了，Python应用最多的场景还是Web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

02

异常的403绕过接管整个网站

今天我们来看一个我今年早些时候进行的外部渗透测试之一，由于保密协议，将使用通常的域 redacted.com

03

python爬虫(七)_urllib2：urlerror和httperror

urllib2的异常错误处理在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError产生的原因主要有：没有网络连接服务器链接失败找不到指定的服务器我们可以用try except语句来补货相应的异常。下面的例子里我们访问了一个不存在的域名。 #urllib2_urlerror.py impor

08

Python：urllib2模块的URLError与HTTPError

在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。

01

Python：爬虫系列笔记(4) -- URL异常处理

大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚 1 2 3 4 5 6 7import urllib2 requset = urllib2.Request('http://www.xxxxx.com') try: urllib2.

09

Python入门网络爬虫之精华版

首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-网络爬虫

02

Nginx访问日志中UserAgent的一些参考建议

前言网络上存在各种各样的爬虫与蜘蛛，有的是对网站有帮助的，譬如说：百度(Baiduspider)、谷歌(Googlebot)、Bing(bingbot)等等，但是也有一些纯粹是垃圾爬虫，不但本身对网站毫无帮助，还大幅损耗服务器资源，如：BLEXBot、AhrefsBot、MJ12bot、hubspot、opensiteexplorer、leiki、webmeup 等，所以我们可以通过UserAgent信息来屏蔽垃圾爬虫 nginx配置将指定的userAgent返回403 if($http_user_a

01

SEO分享：彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常，原因并不明朗。我个人猜测存在如下几个直接原因：更换主题，折腾时带来过多错误页面或间歇性访问错误；直接线上折腾 Nginx 缓存和缩略图，可能导致间歇性大姨妈；新发文章瞬间被转载，甚至是整站被采集，可能导致“降权”；百度居然开始收录动态页面，而且还在持续抓取动态页面。对于前三个，已发生的已无法改变，要发生的也无法阻止。对于转载和采集，我也只能在 Nginx 加入 UA 黑名单和防盗链机制，略微阻碍一下了，但是实际起不到彻底禁止作用，毕竟整个天朝互联网大环境就是这样一个不好

06

用Python多线程抓取并验证代理

最后，为了提高效率，最好是使用多线程。（PS，有个地方要注意，urlopen这个函数，设定了一个全局对象opener，所以如果你使用了多个线程，每个线程使用一个代理，那么，不能使用urlopen这个函数，而应该使用opener.open)

02

urllib与urllib2的学习总结(python2.7.X)

大家好，我是架构君，一个会写代码吟诗的架构师。今天说一说urllib与urllib2的学习总结(python2.7.X),希望能够帮助大家进步!!!

02

Python爬虫基础知识：异常的处理

云豆贴心提醒，本文阅读时间6分钟先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。 HTTPError是urlError的子类，通常在特定HTTP URLs中产生。 1.URLError 通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。这种情况下，异常同样会带有"reason"属性，它是一个tuple

走过路过不容错过，Python爬虫面试总结

Selenium 是一个Web 的自动化测试工具，可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行，所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。Selenium库里有个叫 WebDriver 的API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像BeautifulSoup 或者其他Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫。

02

python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。 SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Int

06

自学Python四爬虫基础知识储备

首先，推荐两个关于python爬虫不错的博客：Python爬虫入门教程专栏和 Python爬虫学习系列教程。写的都非常不错，我学习到了很多东西！在此，我就我看到的学到的进行总结一下！

01

【杂谈】爬虫基础与快速入门指南

今天给大家分享一下网络爬虫的基础知识，以及一些优秀的开源爬虫项目。网络爬虫主要是我们在面对新的任务，但自己又没有数据的时候，获取自己想要的数据的一种手段。因此我们有必要掌握一定的爬虫知识，从而更好的准备训练数据集。

01

Python简单爬取图片实例

都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。

04

Python网络爬虫（一）- 入门基础1.通用爬虫 VS 聚焦爬虫2.HTTP & HTTPS3.urllib24.常用的响应报头(了解)

1.选择已有的url地址，将url地址添加到爬取队列 2.从提取url，DNS解析主机IP，将目标主机IP添加到爬取队列 3.分析网页内容，提取链接，继续执行上一步操作

04

Python使用标准库urllib模拟浏览器爬取网页内容

爬取网页内容的第一步是分析目标网站源代码结构，确定自己要爬取的内容在哪里，这要求对HTML代码有一定了解，对于某些网站内容的爬取还需要具有一定的Javascript基础。但是，如果目标网站设置了反爬机制，就需要一些特殊的手段了，本文介绍一种使用爬虫程序模拟浏览器来对抗反爬机制的简单用法。

01

Python——爬虫入门 Urllib库的进阶

上一篇文章我们简单讲解了Urllib库的基础用法，包括如何获取请求之后的页面响应，如何使用POST请求上传数据，今天我们就来讲讲Urllib库的几个进阶用法。

03

Python 简单爬虫抓取糗事百科

urllib2可以用urllib2.openurl中设置Request参数，来修改Header头。如果你访问一个网站，想更改User Agent（可以伪装你的浏览器），你就要用urllib2。

02

爬虫之urllib.error模块

error模块简介我们在爬虫的时候发请求的时候难免出现错误，如访问不到服务器或者访问被禁止等等，出错了之后urllib将错误信息封装成了一个模块对象中，这个模块就叫error模块 error的分类分为URLError和HTTPError。 URLError是OSError的一个子类有以下错误的时候错误信息就会被封装在URLError里：无网络有网络但是由于种种原因导致服务器连接失败而如果能够连接服务器但是服务器返回了错误代码如404，403等等（400以上），那么催无信息就会被封装在HTTPE

00

python使用urllib2抓取防爬取链接

写了那么多篇找工作的文章，再写几篇就完了，也算是对自己一段时间的一个总结。近来发现自己博客上python技术点的文章有点少，为了防止自己总是遗忘，还是写出来的好。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭