专栏首页程序员的知识天地Python爬虫新手教程:实战APP抓包,抖音的小姐姐等着我!

Python爬虫新手教程:实战APP抓包,抖音的小姐姐等着我!

APP抓包

前面我们了解了一些关于 Python 爬虫的知识,不过都是基于 PC 端浏览器网页中的内容进行爬取。现在手机 App 用的越来越多,而且很多也没有网页端,比如抖音就没有网页版,那么上面的视频就没法批量抓取了吗?

当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢?

答案当然是 No!对于 App 来说应用内的通信过程和网页是类似的,都是向后台发送请求,获取数据。在浏览器中我们打开调试工具就可以看到具体的请求内容,在 App 中我们无法直接看到。所以我们就要通过抓包工具来获取到 App 请求与响应的信息。关于抓包工具有 Wireshark,Fiddler,Charles等。今天我们讲一下如何用 Fiddler 进行手机 App 的抓包。

Fiddler 的工作原理相当于一个代理,配置好以后,我们从手机 App 发送的请求会由 Fiddler 发送出去,服务器返回的信息也会由 Fiddler 中转一次。所以通过 Fiddler 我们就可以看到 App 发给服务器的请求以及服务器的响应了。

大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:784758214,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每日分享一些学习的方法和需要注意的小细节

Fiddler 安装配置

我们安装好 Fiddler 后,首先在菜单 Tool>Options>Https 下面的这两个地方选上。

然后在 Connections 标签页下面勾选上 Allow remote computers to connect,允许 Fiddler 接受其他设备的请求。

同时要记住这里的端口号,默认是 8088,到时候需要在手机端填。

配置完毕,保存后,一定关掉 Fiddler 重新打开。

手机端配置

确保手机和电脑在同一个局域网中,我们先看下计算机的 IP 地址,在 cmd 中输入 ipconfig就可以看到。我电脑用的是无线网,所以 IP 地址为 192.168.1.3。

打开手机无线连接,选择要连接的热点。长按选择修改网络,在代理中填上我们电脑的 IP 地址和 Fiddler 代理的端口。如下图所示:

保存后,在手机原生浏览器打开 http://192.168.1.3 :8008 ,就是上面我们的计算机 IP 和端口。这一步我在夸克浏览器中打开是不行的,一定要到手机自带的浏览器打开。

打开后,点击下图链接,下载证书,然后安装证书。

电脑端浏览器也需要打开此地址,安装证书,方便以后对浏览器的抓包操作。

安装后就万事 OK 了,可以用手机打开 App ,在 Fiddler 上愉快的抓包了。

抓包

我们打开抖音 App,会发现 Fiddler 上出来很多连接。我们先清空没用的连接信息,然后滑动到某个人的主页上,来查看他发布过的所有视频,同时在 Fiddler 上找到视频链接。

经过观察筛选我们可以看出上图就是我们需要的请求地址,这个地址其实是可以在浏览器上打开的,但是我们需要改一下浏览器的User-Agent,我用的是Firefox的插件,打开后和 Fiddler 右边的信息是一致的。我们看下 Fiddler 右边该请求的响应信息。

看到返回了一个 JSON 格式的信息,其中aweme_list 就是我们需要的视频地址,has_more=1 表示往上滑动还会加载更多。之后就可以写代码了。

代码

代码很简单,和我们前几篇讲的一样,直接用 requests 请求相应链接即可。

代码仅做为一个简单的例子,仅仅下载当前页面的内容,如果要下载全部的视频,可以根据当次返回 JSON 结果中的 has_more 和 max_cursor 参数构造出新的 URL 地址不断的下载。

URL 中的 user_id 可以根据自己要爬取的用户更改,可以通过把用户分享到微信,然后在浏览器中打开链接,在打开的 URL 中可以看到用户的 user_id。

import requests
import urllib.request
def get_url(url):
 headers = {'user-agent': 'mobile'}
 req = requests.get(url, headers=headers, verify=False)
 data = req.json()
 for data in data['aweme_list']:
 name = data['desc'] or data['aweme_id']
 url = data['video']['play_addr']['url_list'][0]
 urllib.request.urlretrieve(url, filename=name + '.mp4')
if __name__ == "__main__":
 get_url('https://api.amemv.com/aweme/v1/aweme/post/?max_cursor=0&user_id=98934041906&count=20&retry_type=no_retry&mcc_mnc=46000&iid=58372527161&device_id=56750203474∾=wifi&channel=huawei&aid=1128&app_name=aweme&version_code=421&version_name=4.2.1&device_platform=android&ssmix=a&device_type=STF-AL10&device_brand=HONOR&language=zh&os_api=26&os_version=8.0.0&uuid=866089034995361&openudid=008c22ca20dd0de5&manifest_version_code=421&resolution=1080*1920&dpi=480&update_version_code=4212&_rticket=1548080824056&ts=1548080822&js_sdk_version=1.6.4&as=a1b51dc4069b2cc6252833&cp=dab7ca5f68594861e1[wIa&mas=014a70c81a9db218501e1433b04c38963ccccc1c4cac4c6cc6c64c')

运行后就可以得到视频列表:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 小程序未能成为APP们的救命稻草,未来更是让人担忧

    从小程序开始公测第一天“所有的技术群都成了小程序群”,所有的开发者都成了小程序开发者,所有的公众号都成了小程序的义务宣传队,所有的App都像是头上长了删除号在瑟...

    一墨编程学习
  • 新鲜出炉的8月前端面试题

    题目的答案提供了一个思考的方向,答案不一定正确全面,有错误的地方欢迎大家请在评论中指出,共同进步。

    一墨编程学习
  • 如果有人问你Python爬虫抓取技术的门道,请叫他来看这篇文章

    web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而,正所谓成也萧何败也萧何,开放的特性、搜索引擎以及简单易学的html...

    一墨编程学习
  • java: web应用中不经意的内存泄露

    前面有一篇讲解如何在spring mvc web应用中一启动就执行某些逻辑,今天无意发现如果使用不当,很容易引起内存泄露,测试代码如下: 1、定义一个类App ...

    菩提树下的杨过
  • java: web应用中不经意的内存泄露

    前面有一篇讲解如何在spring mvc web应用中一启动就执行某些逻辑,今天无意发现如果使用不当,很容易引起内存泄露,测试代码如下: 1、定义一个类App ...

    菩提树下的杨过
  • SSM 单体框架 - 教育平台后台管理系统:接口文档

    接口地址: http://localhost:8080/ssm_web/course/findCourseByCondition

    RendaZhang
  • (多图慎入)触目惊心:这就是工业留给地球的“伤疤”

    据外媒报道,工业的发展虽然提升了人们的生活质量,但却在不经意间破坏了我们赖以生存的环境。风光摄影师亨利法尔用镜头记录下了工业发展在地球上留下的“伤疤”,用来警醒...

    机器人网
  • 成绩转换

    输入一个百分制的成绩M,将其转换成对应的等级,具体转换规则如下: 90~100为A; 80~89为B; 70~79为C; 60~69为D; 0~59为E;

    书童小二
  • KVO代码

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/...

    用户1451823
  • 面试总结【一面】

    先是问的项目中的问题,在那说了大概十来分钟; 下来是问的都是基础问题,我把能想到的问题在这里列一下(顺序不重要)

    奕仁

扫码关注云+社区

领取腾讯云代金券