专栏首页极客猴分享一个爬取网站的小技巧

分享一个爬取网站的小技巧

题图:by ourclickdays from Instagram

阅读文本大概需要 2 分钟。

有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。

你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的时间。

我们的抓取目标是 Web 手机端页面数据,而不是 App 端内的数据。因此,我们只要使用 PC 浏览器访问手机 Web 页面,就能继续使用 PC 浏览器进行抓包分析。

举个栗子,假如我要抓取淘宝首页的数据。我先用手机浏览器访问淘宝网站。

然后获取到手机端淘宝首页的 url 地址。

从图中,我们可知淘宝 web 手机端首页地址是:https://h5.m.taobao.com/。接着我们再用 PC 浏览器访问。

PC 端浏览器能正常访问,说明我们能使用浏览器自带的开发者工具来进行抓包分析。

本文分享自微信公众号 - 极客猴(Geek_monkey),作者:极客猴

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 不懂代码也能爬取数据?试试这几个工具

    题图:by watercolor.illustrations from Instagram

    猴哥yuri
  • 详解安卓的ClassLoader

    众所周知,Java程序运行过程是这样的。首先,Java源码编译器将java文件编译成二进制的字节码class文件。然后,Java虚拟机再运行class文件。cl...

    猴哥yuri
  • os.path 模块用法详解

    总所周知,Windows 操作系统和 Linux 系统存在很多不兼容的地方。文件路径就是一个明显的例子。在 Linux 中,路径的分割采用正斜杠 "/",比如 ...

    猴哥yuri
  • 分享一个爬取网站的小技巧

    你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的时间。

    sergiojune
  • AngularJs之路由配置(二)

    我们使用 <a [routerLink]="['/prouct',1]" >商品详情</a>

    黄林晴
  • 将在使用的Linux系统做成Docker镜像

    1.选定制作成镜像的系统 2.打包静息痛(镜像) 系统进行格式转化并压缩,执行如下命令,生成一个镜像的centos7-base.tar的文件

    行 者
  • 市场行情低迷,也许这才是生存之道!

    那么市场现在低迷的行情下,也许有些投资者会找自己认为合适的币种抄底一波,如果抄的不是底,又需要分配建仓配置投资资金,这种操作风险率比较高,对于没有什么经验的新韭...

    区块链领域
  • 大学生移动互联网创业论坛暨腾讯T派移动互联网创新创业大赛启动仪式开启

      “连接•Young出精彩!”3月20日晚, 2015年腾讯T派移动互联网创新创业大赛启动仪式在清华大学经管学院伟伦楼报告厅正式开启。本次活动由腾讯公司和清华...

    腾讯高校合作
  • multipath多路径实验01-构建iSCSI模拟环境

    前几天跟同事网上闲聊技术,吐槽之前自己没有配置过多路径的经历,虽然多路径的配置过程很简单,职责划分也应是主机或存储工程师来搞定,DBA只需要直接拿来用,但这样总...

    Alfred Zhao
  • python入门(九)python基础知识点补充

    星辉

扫码关注云+社区

领取腾讯云代金券