用Python抓包工具查看周边拼车情况

作者:Elliot,一个有着全栈幻想的新零售产品经理 Github:https://github.com/bkidy/Dida_spider

说起Python爬虫,很多人第一个反应可能会是Scrapy或者Pyspider,但是今天文章里用到是Python下一个叫Mitmproxy的抓包工具,对付一些非常规的数据获取还是很有效的。

不过凡事都是有利有弊,一来麻烦,二来呢不会自己动,还得手动(或者按键精灵也可以啊)。

自从滴滴的拼车业务全国下线之后,一直专注拼车的某拼车APP在背后默默替老大哥照顾着那些可怜的乘客。上周五下班的时候,本来想用某拼车APP搭个顺风车回家,没想到下班高峰期的时候,某拼车APP居然挂了,过了十几分钟才缓过来,心里好奇,就想爬一下某拼车APP的数据,看看周边上下班拼车的情况。

知己知彼,百战不殆

对于APP类的爬虫,首先想到的就是抓包,macOS下常用的就是Charles和mitmproxy这两款工具了,而mitmproxy由于支持拦截和脚本又深得我爱,用法的话这里就不具体展开介绍了。

启动mitmweb(mitmproxy家那个有页面的兄弟)抓包工具,手机上打开某拼车APP客户端,查看附近订单(已提前认证车主,并切换到车主身份)

对应一下就可以发现,查询附近订单的接口URL就是这个getNearbyBookingRideList,于是我很天真地就拿着这个接口,和抓包数据,就去请求了

结果人家告诉我

{“code”:205,”message”:”签名错误!”}

因为客户端APP有个签名算法,根据POST给服务器的参数计算的,除非我破了人家APP,然后把算法给找出来,想想还是算了,费神费力(主要是我压根不会)!

这个法子行不通,只能换个法子了

神器在手,天下我有

前面提到mitmproxy有个带web界面的兄弟叫mitmweb,其实还有一个支持脚本的兄弟叫mitmdump,写好脚本

import json
def response(flow):
# 这个别问为啥了,必须这么写
    url = 'http://jiaruwoshiurl.com'
    if url in flow.request.url:
        text = json.loads(flow.response.content)
        print(text)

把脚本存为 111.py,然后终端执行命令:

mitmdump -s 111.py -p 8080 剩下要做的就是不断去某拼车APP上划几下,至于数据那块,就交给Dump兄弟就好了

嗯,看到了嘛~想看哪,手指就滑哪,越滑越有!

再接下来就是需要把我们抓到的数据存起来,以备后期使用,这里我用的是Mongodb,虽然也是第一次用,为了方便点,另外写了个插入数据的方法,再在爬虫文件里面调用。

import pymongo
def insert_nearbyroute(info):
    client = pymongo.MongoClient('127.0.0.1', 27017)
    # 连接数据库
    db = client.dida
    # 选择dida这个数据库
    nearbyroute_collection = db.nearby
    # 选择集合,不存在的话自动创建(对应mysql的表概念)
    nearbyroute_collection.update({'id':info['id']}, info, True)
    # 插入数据,我这里用的是更新语句,意思是如果id已经存在的话,就不执行该条数据的插入动作,可以有效去重

再到我们数据库看看,已经硕果累累了,不够的话就再多滑几下。

数据抓取的思路大概就是这样,因为没时间捣鼓所以就没上APP自动化,其实可以搞个 模拟器+按键精灵,或者appium,就是太懒了怕麻烦,上班的时候划一划就当运动了

数据展示

时间问题,暂时没做数据分析,不过数据挺干净的,也不需要处理啥 关键字Mongodb、Pandas、Pyecharts 拿了周六杭州跨城顺风车数据结合阿里云的DataV做了个简单的飞线图,会动的那种,点击阅读原文可以查看动图。

本文分享自微信公众号 - Python中文社区(python-china)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java帮帮-微信公众号-技术文章全总结

深入浅出爬虫之道: Python、Golang与GraphQuery的对比

本文将分别使用 Python ,Golang 以及 GraphQuery 来解析某网站的 素材详情页面 ,这个页面的特色是具有清晰的数据结构,但是DOM结构不够...

17210
来自专栏我就是马云飞

如何爬取王者荣耀英雄皮肤高清图片?

临下班前,看到群里有人在讨论用王者农药的一些皮肤作为电脑的壁纸,什么高清的,什么像素稍低的,网上查了一手,也有,但像素都不一样,所以,我就想着,自己去官网直接爬...

61250
来自专栏微信公众号:Java团长

张一鸣:10年面试2000人,我发现混的好的人,全都有同一个特质。

大家好!各位都非常年轻,我今天来的时候挺有压力。因为我毕业快11年了,看到你们,真是觉得“长江后浪推前浪”。

12420
来自专栏Python爬虫与算法进阶

爬虫之全站爬取方法

其实这个很好理解。比如说知乎,一个大V有100W粉丝,从这个大V出发,抓取粉丝的粉丝,一直循环下去。(可能是个死循环)

51330
来自专栏崔庆才的专栏

只会爬虫不会反爬虫?动图详解利用 User-Agent 进行反爬虫的原理和绕过方法!

随着 Python 和大数据的火热,大量的工程师蜂拥而上,爬虫技术由于易学、效果显著首当其冲的成为了大家追捧的对象,爬虫的发展进入了高峰期,因此给服务器带来的压...

63820
来自专栏崔庆才的专栏

爬虫又报错了?用 Scrapy 来一发邮件不就好了!

有时候我们写了很多爬虫在运行,但是我们可能不会一直有时间来监控它的变化,比如报错了,或者爬完了,如果我们能有个通知来通知我们,那该是多好啊!比如发个邮件,发个短...

27050
来自专栏Python小屋

Python+django网页设计入门(9):自定义反爬虫功能

2)获取客户端IP地址并限制其访问时间间隔,如果来自爬虫程序,则多次访问之间的间隔会很短,判断这种情况并给出相应的响应。

20040
来自专栏Python爬虫与算法进阶

当selenium被识别爬虫后

因为某站发版,在修一个以前的项目,用Selenium驱动Chrome来做的,然后在某页面需要点击,无论怎么做都失效,我尝试过如下方法:

2.5K30
来自专栏测试驿栈

Jmeter(三十五)_精确实现网页爬虫

meter实现了一个网站文章的爬虫,可以把所有文章分类保存到本地文件中,并以文章标题命名

16530
来自专栏Python数据科学

想爬虫?登录了再说

摘要: 在进行爬虫时,除了常见的不用登录就能爬取的网站,还有一类需要先登录的网站。比如豆瓣、知乎,以及上一篇文章中的桔子网。这一类网站又可以分为:只需输入帐号密...

22040

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励