Python爬虫:抓取手机APP的数据

摘要

大多数APP里面返回的是json格式数据,或者一堆加密过的数据 。这里以超级课程表APP为例,抓取超级课程表里用户发的话题。

1

抓取APP数据包

方法详细可以参考这篇博文:http://my.oschina.net/jhao104/blog/605963

得到超级课程表登录的地址:http://120.55.151.61/V2/StudentSkip/loginCheckV4.action

表单:

表单中包括了用户名和密码,当然都是加密过了的,还有一个设备信息,直接post过去就是。

另外必须加header,一开始我没有加header得到的是登录错误,所以要带上header信息。

2

登录

登录代码:

import urllib2   
from cookielib import CookieJar   
loginUrl = 'http://120.55.151.61/V2/StudentSkip/loginCheckV4.action'   headers = {   
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',   
    'User-Agent': 'Dalvik/1.6.0 (Linux; U; Android 4.1.1; M040 Build/JRO03H)',   
    'Host': '120.55.151.61',   
    'Connection': 'Keep-Alive',   
    'Accept-Encoding': 'gzip',   
    'Content-Length': '207',   
    }   
loginData = 'phoneBrand=Meizu&platform=1&deviceCode=868033014919494&account=FCF030E1F2F6341C1C93BE5BBC422A3D&phoneVersion=16&password=A55B48BB75C79200379D82A18C5F47D6&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&'   
cookieJar = CookieJar()   
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))   
req = urllib2.Request(loginUrl, loginData, headers)   
loginResult = opener.open(req).read()   
print loginResult

登录成功 会返回一串账号信息的json数据

和抓包时返回数据一样,证明登录成功

3

抓取数据

用同样方法得到话题的url和post参数

做法就和模拟登录网站一样。详见:http://my.oschina.net/jhao104/blog/547311

下见最终代码,有主页获取和下拉加载更新。可以无限加载话题内容。

#!/usr/local/bin/python2.7   # -*- coding: utf8 -*-   """   
  超级课程表话题抓取   
"""   import urllib2   
from cookielib import CookieJar   
import json   


''' 读Json数据 '''   def fetch_data(json_data):   
    data = json_data['data']   
    timestampLong = data['timestampLong']   
    messageBO = data['messageBOs']   
    topicList = []   
    for each in messageBO:   
        topicDict = {}   
        if each.get('content', False):   
            topicDict['content'] = each['content']   
            topicDict['schoolName'] = each['schoolName']   
            topicDict['messageId'] = each['messageId']   
            topicDict['gender'] = each['studentBO']['gender']   
            topicDict['time'] = each['issueTime']   
            print each['schoolName'],each['content']   
            topicList.append(topicDict)   
    return timestampLong, topicList   


''' 加载更多 '''   def load(timestamp, headers, url):   
    headers['Content-Length'] = '159'   
    loadData = 'timestamp=%s&phoneBrand=Meizu&platform=1&genderType=-1&topicId=19&phoneVersion=16&selectType=3&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&' % timestamp   
    req = urllib2.Request(url, loadData, headers)   
    loadResult = opener.open(req).read()   
    loginStatus = json.loads(loadResult).get('status', False)   
    if loginStatus == 1:   
        print 'load successful!'   
        timestamp, topicList = fetch_data(json.loads(loadResult))   
        load(timestamp, headers, url)   
    else:   
        print 'load fail'   
        print loadResult   
        return False   loginUrl = 'http://120.55.151.61/V2/StudentSkip/loginCheckV4.action'   topicUrl = 'http://120.55.151.61/V2/Treehole/Message/getMessageByTopicIdV3.action'   headers = {   
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',   
    'User-Agent': 'Dalvik/1.6.0 (Linux; U; Android 4.1.1; M040 Build/JRO03H)',   
    'Host': '120.55.151.61',   
    'Connection': 'Keep-Alive',   
    'Accept-Encoding': 'gzip',   
    'Content-Length': '207',   
    }   

''' ---登录部分--- '''   
loginData = 'phoneBrand=Meizu&platform=1&deviceCode=868033014919494&account=FCF030E1F2F6341C1C93BE5BBC422A3D&phoneVersion=16&password=A55B48BB75C79200379D82A18C5F47D6&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&'   
cookieJar = CookieJar()   
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))   
req = urllib2.Request(loginUrl, loginData, headers)   
loginResult = opener.open(req).read()   
loginStatus = json.loads(loginResult).get('data', False)   
if loginResult:   
    print 'login successful!'   else:   
    print 'login fail'   
    print loginResult   

''' ---获取话题--- '''   
topicData = 'timestamp=0&phoneBrand=Meizu&platform=1&genderType=-1&topicId=19&phoneVersion=16&selectType=3&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&'   
headers['Content-Length'] = '147'   
topicRequest = urllib2.Request(topicUrl, topicData, headers)   
topicHtml = opener.open(topicRequest).read()   
topicJson = json.loads(topicHtml)   
topicStatus = topicJson.get('status', False)   
print topicJson   
if topicStatus == 1:   
    print 'fetch topic success!'   
    timestamp, topicList = fetch_data(topicJson)   
    load(timestamp, headers, topicUrl)

结果:

原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2018-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏JadePeng的技术博客

XNginx - nginx 集群可视化管理工具

之前团队的nginx管理,都是运维同学每次去修改配置文件,然后重启,非常不方便,一直想找一个可以方便管理nginx集群的工具,翻遍web,未寻到可用之物,于是自...

8863
来自专栏我和PYTHON有个约会

Django来敲门~第一部分【5.1.项目配置settings.py详解】

我们创建好了一个Python项目(mysite/)之后,需要在项目中添加模块应用(polls/),在模块应用中添加处理功能逻辑,如添加模块中的视图处理函数(po...

883
来自专栏IT笔记

JAVAWEB开发的微信公众号H5支付

一切需求都是来源于业务需要,前一阵子做了微信扫码支付,的确相对PC用户来说方便了很多。但是如果手机下单,你总不能让用户自己扫自己吧?查看了一下文档,微信还是支持...

1.4K5
来自专栏祝威廉

Kafka Zero-Copy 使用分析

Kafka 我个人感觉是性能优化的典范。而且使用Scala开发,代码写的也很漂亮的。重点我觉得有四个

1232
来自专栏开发之途

Android 模拟登陆网站实现移动客户端

4588
来自专栏高性能服务器开发

redis网络通信模块源码分析(上)

时下的业界,相对于传统的关系型数据库,以key-value思想实现的nosql内存数据库也是非常流行,而提到内存数据库,很多人第一反应就是redis。确实,re...

2503
来自专栏ImportSource

Zipkin和微服务链路跟踪

本期分享的内容是有关zipkin和分布式跟踪的内容。 首先,我们还是通过spring initializr来新建三个项目。一个zipkin service。另外...

3.7K10
来自专栏阿杜的世界

Java Web技术经验总结(十七)

722
来自专栏码农阿宇

国内开源社区巨作AspectCore-Framework入门

在软件业,AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技...

2341
来自专栏coolblog.xyz技术专栏

MyBatis 源码分析 - 插件机制

一般情况下,开源框架都会提供插件或其他形式的拓展点,供开发者自行拓展。这样的好处是显而易见的,一是增加了框架的灵活性。二是开发者可以结合实际需求,对框架进行拓展...

1013

扫码关注云+社区