R语言爬虫手机app数据小笔记

以前玩的爬虫都是爬PC端网页上的数据,比如以前的推文《网络爬虫+文本分析之解读历届我们党的全国代表大会报告》,《R语言网络爬虫+图片分析之CNS期刊画图都爱使用哪些颜色?》,手机端的数据以前还真没有爬过,现对自己学习的流程做个记号。这里要感谢群友“熊熊”大神对本人的指点,特此感谢。

现对学习的要点做如下分享,本文以爬虫携程旅行app的导游数据为例:

1. 准备硬件:电脑,手机,路由器。

(来源百度图片)

2. 准备软件

保证手机和电脑连在同一个无线网络中,然后手机下载安装携程旅行app,手机对应的应用商店就可以直接下载安装;电脑下载要抓包的软件Charles(https://www.charlesproxy.com/),当然这里你也可以选择其他的,视你自己喜好,当然还要安装分析的软件R语言,这里就不多说了。

3. 配置环境

Charles下载安装以后需要激活,这里就不多少了,问问度娘就有,然后就是配置相关参数,这里推荐一个博文:http://blog.csdn.net/yangmeng13930719363/article/details/51645435,这里面介绍的比较详细,Windows系统下配置基本类似,按照操作一步一步来就OK。当你打开手机app后,该软件就会时时进行抓包,你在这里其实是可以直接下载该软件给你抓取的数据的~~

4. 抓包数据

环境配置好以后我们就可以使用R语言进行数据抓包,参考资料:https://cran.r-project.org/web/packages/httr/vignettes/quickstart.html,本人觉得该资料介绍的比较详细,可以参考下。最后我们就可以抓取如下数据,比如游客对导游的评价数据:

5. 文本分析

这不是本文的重点,不过相关资料在网上已经是一堆一堆的了,这里就不多说了,一般常见的分析就是统计词频,画词云,聚类,语义网络分析等等。

看完以后是不是已经压抑不足自己双手,赶紧去实战一把吧

本人致力于打造一款国内较为实用的数据分析平台(http://www.omicsolution.org/wu-kong-beta-linux/main/),为广大国内有需求的小伙伴提供帮助,也感谢大家关注转发,以求帮助更多的人,谢谢

关注一下又不会怀孕,哈哈。。。

平台目前包含的工具(还在持续更新中...):

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G0M68V00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券