首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3款你必须知道的爬虫工具

3款你必须知道的爬虫工具

作者头像
Python数据科学
发布2018-08-06 18:20:43
5780
发布2018-08-06 18:20:43
举报
文章被收录于专栏:Python数据科学Python数据科学

本篇博主将和大家分享几个非常有用的爬虫小工具,这些小工具在实际的爬虫的开发中会大大减少你的时间成本,并同时提高你的工作效率,真的是非常使用的工具。

这些工具其实是Google上的插件,一些扩展程序,并且经博主亲测,无任何问题。最后的最后,博主将提供小工具的获取方式。

好了,话不多说,我们来介绍一下。

JSON-handle

解读:

我们前面提到过,当客户端向服务器端提出<ajax>异步请求(比如 <xhr>)时,会在响应里返回 <json> 格式的数据。

在开发者工具中,我们会看到 <json> 格式数据的可视化效果很差,就是一段冗长的字符串,难以直接看出关键信息。

那么为了直接有效的找到关键信息,<JSON-handle>工具会将繁杂的 <json> 格式数据变成简单清晰的树状图,极大的提高可视化效果。

使用说明:

方法很简单,如果你已经安装好了小工具,点开图标弹出框框,把<json>数据复制进去即可。

当然,你也可以把从任意地方拿来的<json>数据放进去,不局限于浏览器异步响应。

实例:

就以<天猫网站>为例,随便找出一个异步的请求,response是下面这样的。

jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【抢券减400】Apple/苹果iPhone X 全网通4G智能手机苹果10 苹果X","typ.......

把代码放进框框里,点击OK,就变成下面这样了数(据比较长,只截取一部分)。

User-Agent Switcher

解读:

上篇我们介绍了请求头,而这个工具就是针对请求头中的User-Agent字段的。它的作用是可以随意更换浏览器的User-Agent。

比如,你用Chrome浏览器浏览网页,浏览器默认身份是Chrome,但是你可以通过这个工具更换成其它任何身份。

这个最大的好处就是可以直接更换成手机身份浏览网页,而不必用开发者工具来回切换。

使用说明:

使用Chrome浏览器安装插件,点开图标,选择你需要的身份即可。

实例:

(默认Chrome浏览器是这样的)

(变换为IOS-iphone6)

Xpath-Helper

解读:

针对Xpath解析方法,Xpath-Helper可提供当前网页指定Xpath语句的查询结果。

使用说明:

点开图标,出现黑色框框。

  • QUERY:Xpath语句
  • RESULTS:查询结果

实例:

1. 假设目标为二维码下的<百度>二字

2. 开发者工具找到源码相应位置,右键copy xpath

3. 复制到QUERY里面,结果自动出来

注:Xpath-Helper小工具安装后需要重启Chrome方可使用,请大家注意一下这个坑。

安装方法

  • 下载Chrome浏览器
  • 下载小工具插件
  • 打开Chrome更多工具—>扩展程序
  • 拖动小工具插件程序<.crx>拖到扩展程序里
  • 安装

安装完成后,右上角会有三个小图标:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档