专栏首页技术探究-前端、Python、爬虫、数据分析、工具爬虫系列(2)爬虫需要使用什么工具,你知道吗?

爬虫系列(2)爬虫需要使用什么工具,你知道吗?

1. 常用的工具

  1. python
  2. pycharm
  3. 浏览器
    1. chrome
    2. 火狐
  4. fiddler

2 fiddler的使用

2.1 操作界面

2.2 界面含义

请求 (Request) 部分详解

名称

含义

Headers

显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等

Textview

显示 POST 请求的 body 部分为文本

WebForms

显示请求的 GET 参数 和 POST body 内容

HexView

用十六进制数据显示请求

Auth

显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息

Raw

将整个请求显示为纯文本

JSON

显示JSON格式文件

XML

如果请求的 body 是 XML格式,就是用分级的 XML 树来显示它

响应 (Response) 部分详解

名称

含义

Transformer

显示响应的编码信息

Headers

用分级视图显示响应的 header

TextView

使用文本显示相应的 body

ImageVies

如果请求是图片资源,显示响应的图片

HexView

用十六进制数据显示响应

WebView

响应在 Web 浏览器中的预览效果

Auth

显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息

Caching

显示此请求的缓存信息

Privacy

显示此请求的私密 (P3P) 信息

Raw

将整个响应显示为纯文本

JSON

显示JSON格式文件

XML

如果响应的 body 是 XML 格式,就是用分级的 XML 树来显示它

2.3 设置

2.3.1 如何打开

启动Fiddler,打开菜单栏中的 Tools >Options,打开“Fiddler Options”对话框

2.3.2 设置
  • Capture HTTPS CONNECTs 捕捉HTTPS连接
  • Decrypt HTTPS traffic 解密HTTPS通信
  • Ignore server certificate errors 忽略服务器证书错误
  • all processes 所有进程
  • browsers onlye 仅浏览器
  • nono- browsers only 仅非浏览器
  • remote clients only 仅远程链接
  • Trust Root Certificate(受信任的根证书) 配置Windows信任这个根证书解决安全警告
  • Allow remote computers to connect 允许远程连接
  • Act as system proxy on startup 作为系统启动代理
  • resuse client connections 重用客户端链接

2.4 捕获链接(抓包)

  1. 安装SwitchyOmega 代理管理 Chrome 浏览器插件
  2. 设置代理

最后,附上一张python工作方向图:

本文分享自微信公众号 - 离不开的网(Gy_dxj)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 向maven中央仓库提交jar

    从来都是从中央仓库下载jar,这次需要向中央仓库提交jar, 利用Sonatype OSSRH可以把jar等资源提交给Maven的中央仓库。

    凯哥Java
  • KVM虚拟机cpu pinning实战

    使用virsh capabilities可以查看物理机CPU的详细信息,包括物理CPU个数,每个CPU的核数,是否开了超线程。

    力哥聊运维与云计算
  • 要强大的“黑匣子”,还是“可解释”的机器学习?| 清华AI Time激辩

    要不要用准确性换可解释性?这可能是许多资源有限的创业公司,在技术研发中面临的重要问题,同时也是机器学习可解释性研究中的重要议题。

    统计学家
  • HPILO管理经验二则

    hp ILO可以远程管理服务器,非常方便,但是hp ILO在web管理界面,没有重启的选项,如果需要重启ilo,可以使用以下方法: 一 服务器物理断电再加电,需...

    力哥聊运维与云计算
  • hp服务器ilo批量配置脚本

    hp的ilo是一个非常方便的带外管理工具,在平时使用的时候,经常有大量的hp服务器需要配置ilo,下面是我下的一个脚本,可以批量的完成hp服务器ilo配置。

    力哥聊运维与云计算
  • MindManager文件恢复小技巧

    MindManager思维导图软件是一款很好用的工具,其具有的发散性思维、图形化思维的特点,跟测试用例设计时所需的思维非常吻合,在实际工作中极大提升了我们测试用...

    用户5521279
  • Spring Security 表单登录

    本文将重点介绍使用 SpringSecurity登录。 本文将构建在之前简单的Spring MVC示例之上,因为这是设置Web应用程序和登录机制的必不可少的。

    乱敲代码
  • KVM虚拟化网络优化技术总结

    KVM的网络优化方案,总的来说,就是让虚拟机访问物理网卡的层数更少,直至对物理网卡的单独占领,和物理机一样的使用物理网卡,达到和物理机一样的网络性能。

    力哥聊运维与云计算
  • spring boot 2.x 整合mybaits及分页插件

    在众多ORM持久层框架中,凯哥还是比较喜欢使用mybatis。至于mybatis的好处在此就不一一列举了。本篇主要介绍的是在spring boot中怎么整合my...

    凯哥Java
  • 网卡passthrough在kvm虚拟机的配置方法

    04:00.0 Ethernet controller: Intel Corporation 82571EB Gigabit Ethernet Controll...

    力哥聊运维与云计算

扫码关注云+社区

领取腾讯云代金券