分享一个爬取网站的小技巧

题图:by ourclickdays from Instagram

阅读文本大概需要 2 分钟。

有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。

你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的时间。

我们的抓取目标是 Web 手机端页面数据,而不是 App 端内的数据。因此,我们只要使用 PC 浏览器访问手机 Web 页面,就能继续使用 PC 浏览器进行抓包分析。

举个栗子,假如我要抓取淘宝首页的数据。我先用手机浏览器访问淘宝网站。

然后获取到手机端淘宝首页的 url 地址。

从图中,我们可知淘宝 web 手机端首页地址是:https://h5.m.taobao.com/。接着我们再用 PC 浏览器访问。

PC 端浏览器能正常访问,说明我们能使用浏览器自带的开发者工具来进行抓包分析。

原文发布于微信公众号 - 极客猴(Geek_monkey)

原文发表时间:2018-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏一“技”之长

iOS开发之BusinessChat框架使用 原

      BusinessChat是iOS11.3后引入的新框架,这个框架配合iMessage应用将商家与用户更加紧密的结合起来,并且为商家提供了另外一种非常...

22020
来自专栏IT技术精选文摘

Java虚拟机知识思维导图总览

整个知识框架分内存模型,内存管理,类文件结构和高效并发四部分,若手机阅读效果不佳,可点击文中图片放大或本存到手机本地查看,也可点击手机右上角的菜单选择“复制链接...

23470
来自专栏Youngxj

YoungxjTools全新上线

15240
来自专栏Youngxj

媒体范自适应搜索栏优化

21640
来自专栏Jerry的SAP技术分享

推荐一个yaml文件转json文件的在线工具

YAML的全称是YAML Ain’t Markup Language,是一种简洁的非标记语言,以数据为中心,使用空白,缩进,和分行组织数据,从而使得表示更加简洁...

20110
来自专栏移动开发之家

移动端跨平台开发的深度解析

 跨平台一直是老生常谈的话题,cordova、ionic、react-native、weex、kotlin-native、flutter等跨平台框架的百花齐放,...

14340
来自专栏Hongten

网页上播放视频的免费的播放器_CKPlayer

今天在工作的过程中遇到一个功能:在网页中加入视频播放器,类似于我们经常看到的优酷,爱奇艺等视频网站的功能。

5.7K10
来自专栏吴裕超

浅析前端渲染与服务端渲染

背景知识:   「后端渲染」指传统的 ASP、Java 或 PHP 的渲染机制;   「前端渲染」指使用 JS 来渲染页面大部分内容,代表是现在流行的 SPA ...

1.2K40
来自专栏极客猴

搭建手机抓包环境

智能手机的普及,这使得移动互联网成为另一个流量巨头。越来越多的公司也会转而直接提供 App 来展示内容。例如微信以及其生态(微信公众号、小程序)、抖音等。这也说...

38420
来自专栏刘勇刚的专栏

鸟瞰前端 , 再论性能优化

从事前端有 6 年+的时间了,我现在将自己这些年的一个心得体会来个系统性的梳理写成一篇关于性能优化的主题文章,希望对大家有点帮助,也欢迎大家提出各种意见和建议。

54010

扫码关注云+社区

领取腾讯云代金券