数据可视化|用Python实现手机抓包,获取当当图书差评数据!

有态度地学习

在这个万物互联的时代,手机端(App)、电脑端(Web),连接着你我他。

本次学习了手机抓包的相关知识,了解了Charles-mitmproxy-Appium的基本使用,通过对当当图书评论的爬取,得以实践。

那么就让我们来看看当当图书「活着」的差评吧!

/ 01 / Charles

Charles是一个APP抓包工具,与我之前最先使用的Filddler相似,可以得到手机App运行过程中发生的所有网络请求和响应内容。

这里简单说一下安装。

电脑端下载安装完Charles后,需要配置证书,最后开启SSL监听,这个具体大家自己自行百度。

手机端则是需要与电脑在同一网络下,比如都连接家里的WIFI,然后在手机的WIFI高级选项里使用Charles代理,输入电脑的IP地址,端口8888,最后为证书命名。

连好以后,手机打开当当App,到图书「活着」的差评页,不断向下滑动差评页面,便能在电脑上的Charles观察到下面的信息。

将电脑上的信息与手机上的信息匹配一下。

这样我们通过请求信息,就可以知道App评论的真正API接口了。

不过呢有的时候会碰见App接口带有密匙的,我们不好确定出API接口,那么就轮到mitmproxy上场了。

/ 02 / mitmproxy

mitmproxy也是用来抓包的,是一个控制台形式,我理解的就是没有UI界面,在命令行上展示的(windows上不能用,我瞎理解的...)。

mitmproxy有两个关联组件,一个是mitmdump,是mitmproxy的命令行接口,可以对接Python脚本,用Python实现监听后的处理,也就是用脚本处理信息。

另一个是mitmweb,为Web程序服务,本次不涉及。

mitmproxy的安装同样需要证书配置,电脑端配一个,手机端也要配一个。

这里有个坑,我的华为手机直接识别不了pem格式的文件,无法直接安装,还得从SD卡那才能安装,也就是有权限问题。

手机WIFI代理设置和Charles差不多,只是端口需要改变,这里是8080,。

然后命令行运行我都是在mitmdump.exe所在的文件夹开启的,实在是不想去搞那些烦人的环境变量。

这里就直接讲mitmdump的应用,毕竟windows用不了mitmproxy。

通过手动下滑差评页面,就能自动处理信息并存储。

Python脚本如下,第一次深刻接触脚本大佬,以前还只是听说了游戏脚本而已。

import json

def response(flow):
    url = 'product.mapi.dangdang.com'
    page_size = 'page_size=15'
    # 对url进行筛选,只选取评论的url
    if url and page_size in flow.request.url:
        text = flow.response.text
        data = json.loads(text)
        for item in data['review_list']:
            # 获取用户昵称
            if len(item['cust_name']) > 0:
                name = item['cust_name']
            else:
                name = '无名'
            print(item['cust_name'])
            # 获取用户评分
            if len(item['score']) > 0:
                score = str(item['score'])
            else:
                score = '0'
            print(item['score'] + '\n')
            # 获取用户评论
            content = item['content'].replace(',', ',').replace('\n', '')
            print(item['content'] + '\n')
            # 获取用户评论时间
            creation_date = item['creation_date']
            print(item['creation_date'])
            # 获取有用数
            if len(str(item['total_helpful_num'])) > 0 :
                total_helpful_num = str(item['total_helpful_num'])
            else:
                total_helpful_num = '0'
            print(item['total_helpful_num'])
            # 获取无用数
            if len(str(item['total_useless_num'])) > 0 :
                total_useless_num = str(item['total_useless_num'])
            else:
                total_useless_num = '0'
            print(item['total_useless_num'])
            # 获取评论数
            if len(str(item['total_reply_num'])) > 0 :
                total_reply_num = str(item['total_reply_num'])
            else:
                total_reply_num = '0'
            print(item['total_reply_num'])
            print('\n')
            # 将获取信息写入csv文件
            with open('alive.csv', 'a+', encoding='utf-8-sig') as f:
                f.write(name + ',' + score + ',' + content + ',' + creation_date + ',' + total_helpful_num + ',' + total_useless_num + ',' + total_reply_num + '\n')

python

那么我们现在已经实现了信息的获取和存储,是不是已经完成工作了呢?

并不是,我们还要实现自动化,上面可是手动下滑页面啊!

感谢程序让人解放双手,实现自动化,佩服佩服。

/ 03 / Appium

Appium是移动端自动化测试工具,它可以模拟App内部的各种操作,本次用到就有「点击」和「下滑」。

其实就跟selenium 一样,只不过一个是电脑端自动化,一个是手机端自动化。

Appium安装挺复杂的,而且新版本的命令还不一样。

比如下滑,已经不能使用swip,而是使用TouchAction。

环境变量就是JDK,SDK等,坑太多,小伙伴慢慢体会...

都准备好了之后,将手机和电脑通过数据线连接,打开USB调试,允许访问数据。

用adb命令获取连接情况,及手机型号信息。

用SDK包下的aapt命令获取APK的包名及入口名,这里不细说,有事找度娘。

这样便能配置Appium参数了。

点击蓝色按钮,手机便能自动启动当当App啦!

接下来就是操作手机,然后点击Appium的刷新键,获取元素定位代码,这里就完全用Appium上给的定位,懒得想,毕竟对手机网页不是很懂...

{ 左右滑动切换图片 }

最后就是使用Python代码驱动App啦。

import time
import random
from appium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from appium.webdriver.common.touch_action import TouchAction
from selenium.webdriver.support import expected_conditions as EC


def main():
    # 设置驱动配置
    server = 'http://localhost:4723/wd/hub'
    desired_caps = {
        'platformName': 'Android',
        'deviceName': 'STF_AL00',
        'appPackage': 'com.dangdang.buy2',
        'appActivity': 'com.dangdang.buy2.StartupActivity'
    }
    driver = webdriver.Remote(server, desired_caps)
    # 这里获取一下手机屏幕实际大小,可以为设置滑动参数做参考
    size = driver.get_window_size()
    print(size)
    wait = WebDriverWait(driver, 60)
    # 因为要叫我切换地区,选择取消
    button_1 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/left_bt')))
    button_1.click()
    # 点击图书榜按钮
    button_2 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/index_icon_iv0')))
    button_2.click()
    # 点击图书「活着」区域块
    button_3 = wait.until(EC.presence_of_element_located((By.XPATH, '/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.RelativeLayout/android.support.v4.view.ViewPager/android.widget.RelativeLayout/android.widget.ListView/android.widget.LinearLayout[2]')))
    button_3.click()
    # 点击评论区域块
    button_4 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/product_component_book_score_ll')))
    button_4.click()
    time.sleep(5)
    # 点击差评按钮
    button_5 = wait.until(EC.presence_of_element_located((By.XPATH, '/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.RelativeLayout/android.support.v4.view.ViewPager/android.widget.LinearLayout/android.support.v4.view.ViewPager/android.widget.RelativeLayout/android.widget.LinearLayout/android.view.ViewGroup/android.widget.RelativeLayout[6]/android.widget.TextView')))
    button_5.click()
    # 向下滑动,y轴参数我随便选的,向上滑就对了
    while True:
        TouchAction(driver).press(x=515, y=1247).move_to(x=515, y=1026).release().perform()
        time.sleep(float(random.randint(5, 10)))


if __name__ == '__main__':
    main()

手机自动操作就在下面这个视频里,我录下来的(小程序识别)。

最后成功存储数据。

/ 04 / 数据可视化

词云代码如下。

from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import pandas as pd
import jieba

df = pd.read_excel('alive.xlsx', header=None, names=["name", "score", "comment", "date", "up_number", "down_number", "reply_number"])

text = ''
for line in df['comment']:
    text += ' '.join(jieba.cut(line, cut_all=False))
backgroud_Image = plt.imread('book.jpg')
stopwords = set('')
stopwords.update(['没有', '什么', '不是', '知道', '怎么', '就是', '本书', '当当', '这个 商品', '一个', '自己', '真的', '商品 不太好', '一本', '这样', '但是', '现在', '你们', '一直', '以后', '这个', '商品'])

wc = WordCloud(
    background_color='white',
    mask=backgroud_Image,
    font_path='C:\Windows\Fonts\STZHONGS.TTF',
    max_words=2000,
    max_font_size=150,
    random_state=30,
    stopwords=stopwords
)
wc.generate_from_text(text)
# 看看词频高的有哪些,把无用信息去除
process_word = WordCloud.process_text(wc, text)
sort = sorted(process_word.items(), key=lambda e:e[1], reverse=True)
print(sort[:50])
img_colors = ImageColorGenerator(backgroud_Image)
wc.recolor(color_func=img_colors)
plt.imshow(wc)
plt.axis('off')
wc.to_file("活着.jpg")
print('生成词云成功!')

最后生成差评词云,来看看大家怎么吐槽的。

可以看出主要槽点就是「快递物流」「书本质量」「客服服务」上 。

毕竟「活着」这本书,内容还是不错的,从中深深的体会到生活的不易~

最近公众号被人黑了,最主要的影响是不能对我的公众号加关注,为防止失联,欢迎加我个人微信【hg_liuzl,暗号:Python绿色通道】拉你进群一起进步!

本文分享自微信公众号 - Python绿色通道(Python_channel)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员的知识天地

Python怎么学,才能薪资翻一翻?

如果你对数据分析有所了解,一定听说过一些亲民的工具如Excel、Tableau、PowerBI等,都能成为数据分析的得力助手。但它们的不足也是显而易见的:操作繁...

9920
来自专栏程序员的知识天地

厉害了!用Python爬取无线网络,走遍天下都能连

今天从WiFi连接的原理,再结合代码为大家详细的介绍如何利用python来破解WiFi。

13620
来自专栏程序员的知识天地

1、2、3维图见过,用Python画出来的六维图见过么?

我们的大脑通常最多能感知三维空间,超过三维就很难想象了。尽管是三维,理解起来也很费劲,所以大多数情况下都使用二维平面。

19320
来自专栏小闫笔记

python技术面试题(八)

答:is是同一性运算符,是判断两个对象的id地址是否相同,是否指向同一块区域;==是比较操作符,用来判断两个对象的数据类型和值是否相同。

11330
来自专栏数据云团

Django Rest Framework 分页(上)

在 serializer.py 文件中添加 UserGroupSerializer 类函数

12520
来自专栏程序员的知识天地

百万点赞怎么来?Python批量制作抖音的卡点视频原来这么简单!

玩抖音的朋友都应该知道,最近「卡点视频」简直不要太火。抖音上很多大神也出了剪辑各种卡点视频的教程。

16830
来自专栏程序员的知识天地

这个库厉害了,自动补全Python代码,节省50%敲码时间

根据介绍,该项目基于 LSTM 模型,训练后,负责对代码的缺失部分进行补全。评价模型的方法是判断节省了多少的按键信息——即模型给出长度为 L 的代码建议,如果和...

14420
来自专栏Jerry的SAP技术分享

root cause of error messagw for a mixed usage of 01 and 03

版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons)

10820
来自专栏小闫笔记

python技术面试题(十)

The more you think and talk about your goals, the more positive and enthusiastic...

10820
来自专栏程序员的知识天地

最简洁的Python时间序列可视化:数据科学分析价格趋势,预测价格,探索价格

时间序列数据在数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。

19540

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励