Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python爬虫之chrome在爬虫中的使用

Python爬虫之chrome在爬虫中的使用

作者头像
海仔
发布于 2020-09-16 06:23:01
发布于 2020-09-16 06:23:01
1.9K0
举报
文章被收录于专栏:海仔技术驿站海仔技术驿站

chrome浏览器使用方法介绍

学习目标
  1. 了解 新建隐身窗口的目的
  2. 了解 chrome中network的使用
  3. 了解 寻找登录接口的方法

1 新建隐身窗口

浏览器中直接打开网站,会自动带上之前网站时保存的cookie,但是在爬虫中首次获取页面是没有携带cookie的,这种情况如何解决呢?

使用隐身窗口,首次打开网站,不会带上cookie,能够观察页面的获取情况,包括对方服务器如何设置cookie在本地

2 chrome中network的更多功能

2.1 Perserve log

默认情况下,页面发生跳转之后,之前的请求url地址等信息都会消失,勾选perserve log后之前的请求都会被保留

2.2 filter过滤

在url地址很多的时候,可以在filter中输入部分url地址,对所有的url地址起到一定的过滤效果,具体位置在上面第二幅图中的2的位置

2.3 观察特定种类的请求

在上面第二幅图中的3的位置,有很多选项,默认是选择的all,即会观察到所有种类的请求

很多时候处于自己的目的可以选择all右边的其他选项,比如常见的选项:

  • XHR:大部分情况表示ajax请求
  • JS:js请求
  • CSS:css请求

但是很多时候我们并不能保证我们需要的请求是什么类型,特别是我们不清楚一个请求是否为ajax请求的时候,直接选择all,从前往后观察即可,其中js,css,图片等不去观察即可

不要被浏览器中的一堆请求吓到了,这些请求中除了js,css,图片的请求外,其他的请求并没有多少个

3 寻找登录接口

回顾之前人人网的爬虫我们找到了一个登陆接口,那么这个接口从哪里找到的呢?

http://www.renren.com

3.1 寻找action对的url地址

可以发现,这个地址就是在登录的form表单中action对应的url地址,回顾前端的知识点,可以发现就是进行表单提交的地址,对应的,提交的数据,仅仅需要:用户名的input标签中,name的值作为键,用户名作为值,密码的input标签中,name的值作为键,密码作为值即可

思考:

如果action对应的没有url地址的时候可以怎么做?

3.2 通过抓包寻找登录的url地址

通过抓包可以发现,在这个url地址和请求体中均有参数,比如uniqueTimestamprkey以及加密之后的password

这个时候我们可以观察手机版的登录接口,是否也是一样的

可以发现在手机版中,依然有参数,但是参数的个数少一些,这个时候,我们可以使用手机版作为参考,下一节来学习如何分析js


小结

  1. 使用隐身窗口的主要目的是为了避免首次打开网站携带cookie的问题
  2. chrome的network中,perserve log选项能够在页面发生跳转之后任然能够观察之前的请求
  3. 确定登录的地址有两种方法:
    • 寻找from表单action的url地址
    • 通过抓包获取
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/09/13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
我的第一个Python爬虫——谈心得[通俗易懂]
2018年3月27日,继开学以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法。相信各大高校应该都有本校APP或超级课程表之类的软件,在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力,所以记下了这篇博客,用于总结我所学到的东西,以及用于记录我的第一个爬虫的初生。
全栈程序员站长
2022/06/29
7910
我的第一个Python爬虫——谈心得[通俗易懂]
python爬虫笔记-day3
正则使用的注意点 re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果 原始字符串r,待匹配字符串中有反斜杠的时候,使用r能够忽视反斜杠带来
py3study
2020/01/08
6830
Python爬虫中:get和post方法使用
requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容。
Python学习者
2023/02/16
1.2K0
python爬虫之初恋 selenium
selenium 是一个web应用测试工具,能够真正的模拟人去操作浏览器。 用她来爬数据比较直观,灵活,和传统的爬虫不同的是, 她真的是打开浏览器,输入表单,点击按钮,模拟登陆,获得数据,样样行。完全不用考虑异步请求,所见即所得。
Mshu
2018/10/31
9410
Python爬虫之scrapy模拟登陆
scrapy中start_url是通过start_requests来进行处理的,其实现代码如下
海仔
2020/09/28
1.5K0
Python爬虫
也叫robots.txt,是存放在网站根目录下的文本文件,用来告诉搜索引擎该网站哪些内容是不应该被抓取的,哪些是可以抓取的。
常青AAS
2022/02/11
4.4K0
JavaScript 开发者需要了解的15个 DevTools 技巧
隐身模式或私有模式会使用单独的用户配置文件,在浏览器重新启动之后不会保留 Cookie,localStorage或缓存文件之类的数据。每个会话都会以干净的状态开始,所以非常适合测试登录功能、首次渲染性能和PWA程序。
ConardLi
2021/05/11
4.9K0
JavaScript 开发者需要了解的15个 DevTools 技巧
python模拟get/post请求登录
今天学习了python模拟登陆,然后自己进行一下总结,以csdn登录为例子,浏览器为Chrome
py3study
2020/01/06
4.3K0
python模拟get/post请求登录
Python模拟登录的几种方法
  简单地说,cookie保存在发起请求的客户端中,服务器利用cookie来区分不同的客户端。因为http是一种无状态的连接,当服务器一下子收到好几个请求时,是无法判断出哪些请求是同一个客户端发起的。而“访问登录后才能看到的页面”这一行为,恰恰需要客户端向服务器证明:“我是刚才登录过的那个客户端”。于是就需要cookie来标识客户端的身份,以存储它的信息(如登录状态)。
菲宇
2019/06/13
4.2K0
Python模拟登录的几种方法
Python爬虫的实践技巧
如今已然是大数据时代,数据正在驱动着业务开发,驱动着运营手段,有了数据的支撑可以对用户进行用户画像,个性化定制,数据可以指明方案设计和决策优化方向,所以互联网产品的开发都是离不开对数据的收集和分析,数据收集的一种是方式是通过上报API进行自身平台用户交互情况的捕获,还有一种手段是通过开发爬虫程序,爬取竞品平台的数据,后面就重点说下爬虫的应用场景和实践中会遇到的问题和反反爬虫的一些套路与技巧。
一墨编程学习
2018/12/13
1.1K0
Python爬虫的实践技巧
python爬虫入门(一)urllib和urllib2
爬虫简介  什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Int
zhang_derek
2018/04/11
1.9K0
python爬虫入门(一)urllib和urllib2
「Python爬虫系列讲解」十四、基于开发者工具 Network 的数据抓包技术
前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 「Python爬虫系列讲解」四、BeautifulSoup 技术 「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息 「Python爬虫系列讲解」六、Python 数据库知识 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取 「Python爬虫系列讲解」八、Selenium 技术 「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识 「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫 「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫 「Python爬虫系列讲解」十三、用 Scrapy 技术爬取网络数据
荣仔_最靓的仔
2021/02/02
2.2K0
「Python爬虫系列讲解」十四、基于开发者工具 Network 的数据抓包技术
Python爬虫番外篇之关于登录
摘要总结:通过分析GitHub的登录页面,我们可以使用Python requests库和BeautifulSoup库来获取GitHub的登录页面HTML,然后使用JavaScript代码伪造用户名和密码,并发送POST请求以登录。我们还使用Python requests库和BeautifulSoup库来获取伪造的CSRF令牌,并使用该令牌进行第二次POST请求,以获取GitHub的cookie。最后,我们可以使用获取的cookie来访问GitHub的其他页面,例如个人资料和仓库。
coders
2018/01/04
1.2K0
Python爬虫番外篇之关于登录
爬虫学习(三)
When something is important enough, you do it even if the odds are not in your favor.
小闫同学啊
2019/07/18
5.7K0
爬虫学习(三)
requests库之Cookie
Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。
胡齐
2020/01/02
2K0
Python爬虫基础讲解(三):网络面板
网络(Network)面板记录页面上每个网络操作的相关信息,包括详细的耗时数据、HTTP请求与响应标头和Cookie,等等。这就是我们通常说的抓包。
松鼠爱吃饼干
2021/09/24
5880
知乎Python大佬带你10分钟入门Python爬虫(推荐收藏)
爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。
龙哥
2019/08/27
1.9K0
知乎Python大佬带你10分钟入门Python爬虫(推荐收藏)
requests用法基础-进阶
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
xbhog
2019/11/04
5460
requests用法基础-进阶
Python爬虫之requests模块了解
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VTDA4Hje-1599297042880)(.\images\requests-3-2-1-4.png)]
海仔
2020/09/08
1.6K0
Python爬虫之requests模块了解
什么是爬虫?怎么样玩爬虫
看到上面的那只蜘蛛没?别误会,今天要教你如何玩上面的蜘蛛。我们正式从0到1轻松学会Python爬虫.......
conanma
2021/11/01
1K0
相关推荐
我的第一个Python爬虫——谈心得[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档