使用urllib/urllib2获取会话cookie并使用它登录到最终页面 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

解决 urllib2 中 CookiesMiddleware 的 cookie 问题

在网络爬虫开发中，Cookie 是一项关键的技术，用于跟踪用户的身份和状态。Cookie 是服务器在客户端存储的数据，通常用于维护用户会话和保存用户的登录信息。在爬虫应用中，模拟用户行为和保持 Cookie 状态是必要的，以便访问需要登录或受限制的页面。然而，使用 urllib2 库时，有效地处理 Cookie 问题成为一项具有挑战性的任务。

03

Python使用cookie

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

02

您找到你想要的搜索结果了吗？

是的

没有找到

Python：爬虫系列笔记(5) -- cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。在此之前呢，我们必须先介绍一个opener的概念。 1.Opener 当你获取一个URL你使用

09

python模拟新浪微博登陆功能(新浪微博爬虫)

有些网站设置了权限，只有在登录了之后才能爬取网站的内容，如何模拟登录，目前的方法主要是利用浏览器cookie模拟登录。浏览器访问服务器的过程在用户访问网页时，不论是通过URL输入域名或IP，还是点击链接，浏览器向WEB服务器发出了一个HTTP请求（Http Request），WEB服务器接收到客户端浏览器的请求之后，响应客户端的请求，发回相应的响应信息（Http Response），浏览器解析引擎，排版引擎分析返回的内容，呈现给用户。WEB应用程序在于服务器交互的过程中，HTTP请求和响应时发送的都是一

06

Python模拟登录的几种方法

简单地说，cookie保存在发起请求的客户端中，服务器利用cookie来区分不同的客户端。因为http是一种无状态的连接，当服务器一下子收到好几个请求时，是无法判断出哪些请求是同一个客户端发起的。而“访问登录后才能看到的页面”这一行为，恰恰需要客户端向服务器证明：“我是刚才登录过的那个客户端”。于是就需要cookie来标识客户端的身份，以存储它的信息（如登录状态）。

04

python爬虫入门（二）Opener和Requests

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能：　　1.使用相关的Handler处理器来创建特定功能的处理器对象；　　2.然后通过urllib2.build_opener()方法使用这些处理器对象，创建自定义opener对象

05

Python:urllib2模块Handler处理器和自定义Opener

这种方式发送请求得到的结果，和使用urllib2.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

02

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python代码）

导读：本文主要分为两个部分：一部分是网络爬虫的概述，帮助大家详细了解网络爬虫；另一部分是HTTP请求的Python实现，帮助大家了解Python中实现HTTP请求的各种方式，以便具备编写HTTP网络程序的能力。

03

手把手教你利用爬虫爬网页（Python代码）[通俗易懂]

本文主要分为两个部分：一部分是网络爬虫的概述，帮助大家详细了解网络爬虫；另一部分是HTTP请求的Python实现，帮助大家了解Python中实现HTTP请求的各种方式，以便具备编写HTTP网络程序的能力。

01

python爬虫(六)_urllib2：handle处理器和自定义opener

本文将介绍handler处理器和自定义opener，更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页，它是一个特殊的opener(也就是模块帮我们建好的)，opener是urllib2.OpenerDirectory的实例。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：使用相关的Handler处理器来创建特定功能的处理器对象；

08

自学Python四爬虫基础知识储备

首先，推荐两个关于python爬虫不错的博客：Python爬虫入门教程专栏和 Python爬虫学习系列教程。写的都非常不错，我学习到了很多东西！在此，我就我看到的学到的进行总结一下！

01

爬虫0020：urllib2操作urllib2的使用

至此，我们可以描述爬虫程序，就是用来根据一定的规则采集获取网络中的数据的！整个采集过程主要步骤如下：

03

python获取sessionid

4 from urllib2 import Request, build_opener, HTTPCookieProcessor, HTTPHandler

01

python爬虫针对需要登陆操作的技巧分析

在日常爬虫中我们经常会遇到一些目标网站需要带上cookie才能获取数据，cookie指某些网站为了辨别用户身份、进行sessionn跟踪而储存在用户本地终端上的数据（通常经过加密）。

02

python——Request模块「建议收藏」

虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。

06

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

注解：这里使用urllib2.HTTPHandler()访问https网页得到的html代码。

04

Python模拟登陆[通俗易懂]

模拟登陆的时候是post请求。提交表单的地址和人人界面登陆地址是不一样的，实际是人人界面的登陆地址。也就是wwww.renren.cm.你输入你的信息以后它会自己主动跳转到

01

53. Python 爬虫（2）

Name value domain path expires

01

django queryset 去重 .distinct()说明

补充知识：Python——深入理解urllib、urllib2及requests（requests不建议使用？）

02

使用Python POST任意的HTTP

第一次 open() 是进行登录. 服务器返回的 Cookie 被自动保存在 cookies 中, 被用在后来的请求.

01

python 自动登陆网页原理

有些网站设置了权限，只有在登录了之后才能爬取网站的内容，如何模拟登录，目前的方法主要是利用浏览器cookie模拟登录。

02

Python爬虫入门这一篇就够了

所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。

01

这里是Python爬虫的起点，抢占资源啦

今天跟大家出的这篇文章，是从爬虫的起点开始讲起，这里的Python学习教程，一篇文章带你贯穿爬虫始末！之前也够跟大家出过相关的Python相关的Python学习教程，伙伴们也可以翻阅一下以前的！

03

Python的Cookie详解

CookieJar——>派生——>FileCookieJar——>派生——>MozillaCookieJar和LwpCookieJar

02

python网络爬虫（4）结构与基本概念

基本模型请求与响应 import urllib.request as urllib2 request=urllib2.Request('http://www.zhihu.com') response=urllib2.urlopen(request) html=response.read() print(html) Cookie处理呵呵 import urllib.request as urllib2 import http.cookiejar as cookielib cookie = cookie

02

Python爬虫的起点

第一章主要讲解爬虫相关的知识如：http、网页、爬虫法律等，让大家对爬虫有了一个比较完善的了解和一些题外的知识点。

02

Python 网络请求模块 urllib 、requests

Python 给人的印象是抓取网页非常方便，提供这种生产力的，主要依靠的就是 urllib、requests这两个模块。

02

python接口测试之urllib2的应用(十五)

在接口测试中或者说在网络爬虫中，urllib2库是必须要掌握的一个库，当然还有优秀的requests库，今天重点来说urllib2库在接口测试中的应用。urllib2定义了很多的函数和类，这些函数和类能够帮助我们在复杂情况下获取URLS的内容。这些情况包含了对headers的添加，cookie的处理，代理，超时，鉴权等的处理。如果想详细的了解urllib2库，建议到官方查看，官方地址：https://docs.python.org/2/library/urllib2.html。查看urllib2库的详细的帮助文档，见执行的代码：

03

【Python爬虫】Urllib的使用（2）

这是第二篇介绍爬虫基础知识的文章，之前的文章【Python爬虫】初识爬虫（1）主要是让大家了解爬虫和爬虫需要的基础知识，今天主要给大家介绍Urllib的使用。

05

利用Python程序实现某OA系统的自动定位

本文介绍了笔者通过python程序实现某OA系统自动考勤打卡功能及相关逻辑原理的解析。

01

Python爬虫入门这一篇就够了「建议收藏」

所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。

01

爬虫入门（一）：轻量级爬虫

其中，内存适合个人，缓存数据库适合大型公司。 ### 4.网页下载器（urllib2）[核心组件]() - 网页下载器：将互联网上URL对应的网页下载到本地的工具。 - Python有那几种网页下载器？ -

01

使用Python去爬虫

爬虫，简单说就是规模化地采集网页信息，因为网络像一张网，而爬虫做的事就像一只蜘蛛在网上爬，所以爬虫英文名就是spider。

02

爬虫养成记 - 网络下载器urllib

urllib2是python2.x下的一个模块，在Python3.x中，urllib2被拆分成urllib.request和urllib.error.

01

快速入门网络爬虫系列 Chapter03 | 抓取网页

一、了解URL 统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简介的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器怎样处

02

Python爬虫模拟登录带验证码网站

本篇主要介绍了Python爬虫学习--Python爬虫模拟登录带验证码网站，通过具体的内容展现，希望对Python爬虫的学习有一定的帮助。

03

史上最全 Python 爬虫抓取的技巧总结

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。 1.最基本的抓站 import urllib2

05

python3模拟登录zabbix

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import http.cookiejar import urllib.parse # 登录的主页面 hosturl = 'http://xxxxx' # 自己填写 # post数据接收和处理的页面（我们要向这个页面发送我们构造的Post数据） posturl = 'http://xxxxxxxxxxxxxxx/index.php' # 从数据包中分析出，处理pos

01

Python网络爬虫（一）- 入门基础1.通用爬虫 VS 聚焦爬虫2.HTTP & HTTPS3.urllib24.常用的响应报头(了解)

1.选择已有的url地址，将url地址添加到爬取队列 2.从提取url，DNS解析主机IP，将目标主机IP添加到爬取队列 3.分析网页内容，提取链接，继续执行上一步操作

04

python爬虫----（1. 基本模块）

python爬虫，web spider。爬取网站获取网页数据，并进行分析提取。基本模块使用的是 urllib，urllib2，re，等模块（一）基本用法，例子（1）进行基本GET请求，获取网页html #!coding=utf-8 import urllib import urllib2 url = 'http://www.baidu.com/' # 获取请求 request = urllib2.Request(url) try: # 根据request，得到返回r

01

python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。 SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Int

06

接口自动化测试利器——Requests

Python中，系统自带的urllib和urllib2都提供了功能强大的HTTP支持，但是API接口确实太难用了。Requests 作为更高一层的封装，在大部分情况下对得起它的slogan——HTTP for Humans。

01

博客群发（2）--实现登陆

模板方法 python也是一种面向对象的语言，所以在实现群发的时候，会登陆不同的网站，但是登陆的方法什么的不尽相同，所以这里想到的是模板方法。模板方法模式：应用特性：重复做相同逻辑的事情，但是具体细节不同的场景结构特性：相同逻辑抽取至父类，具体细节留置子类。可以说是对逻辑的抽象看一下代码： #!/usr/bin/env python #encoding: utf-8 class template: def __init__(self): pass

06

Python入门网络爬虫之精华版

首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-网络爬虫

02

Python 网络爬虫概述

几乎每个网站都有一个名为robots.txt的文档，当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面的数据都可以爬取。如果网站有文件robots.txt文档，就要判断是否有禁止访客获取数据如：https://www.taobao.com/robots.txt

02

可登陆爬虫Python实现

最近期末测试完结了，正好恰逢周末，就想找点事来做，之前做过爬虫，遇到了登录的问题，今天就来整理下。

02

Python爬虫基础知识：urllib2的使用技巧

糖豆贴心提醒，本文阅读时间6分钟前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。新建test14来实现一个简单的代理Demo：这里要注意的一个细节，使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。这样后面的使用会很方便，

05

python3的request用法实例

requests 是爬取数据最常用的模块，比起 urllib, urllib2, urllib3 这几个单是看名字就晕的模块，requests 不仅功能强大，而且 api 简单易用，使用起来有如丝般顺滑

02

模拟登录联通10010.com查询宽带余额

模拟登录的过程很简单，获取查询的cookie需要两步请求，拿到cookie后可以随意查询。

01

用python爬虫抓站的一些技巧总结

这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() - 2.使用代理服务器这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。 import urllib2 proxy_support = urllib2

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭