运营和新媒体人必会:不用代码,10分钟采集ASO数据

很多做运营的朋友,经常需要爬取网上数据和资料作为分析的样本资料,例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据,通常需要花大量的时间重复复制和黏贴,这样费时费力,而且获取数据之后更重要的是分析得到想要的答案,把时间花在大量复制黏贴上有本末倒置的嫌疑。

由于很多运营本身工作繁忙,没有时间系统学习python编程语言以及复杂的火车头采集软件,于是就给大家推荐一款基于浏览器的采集插件web

scraper,我开设了一门专门的课程《不用代码,10分钟学会微博、知乎、豆瓣、58同城等网站数据采集》,里面有非常详细的知识介绍和实操案例。

Ok,今天就以采集ASO114网站为例,具体介绍这款插件在实际采集当中的运用。假设我要采集ASO114网是关于运营app的介绍以及下一页面的下载量数据,一个一个复制显然是不合理的,那么我们来看看web scraper是如何快速采集的。

需要注意的是,关于插件的安装和设置,在之前的课程都有相关说明,有兴趣的朋友可以去看看。

一、建立一级采集器,设定选择范围

1、进入采集页面https://aso114.com/a/%E8%BF%90%E8%90%A5/,通过快捷键:按【F12】键,选择【Web Scraper】启动插件;

2、新建站点地图:点击【Create new sitemap】→【Create Sitemap】,新建抓取任务。新建后如下图填写信息,填写完点击【CreateSitemap】创建:

3、设置一级采集器:具体如下如所示

有几个设置这里需要注意的是:

(1)type:这里选择的是element click,因为网页页面需要点击下方的加载更加,才能把全部信息展示出来;

(2)click type:这里选择的是click more,因为需要多次点击“加载更多”才能展示全部信息;

(3)click element uniqueness:这里选择的是unique HTML,因为当加载更多不能点击的时候会出现网页代码的改变,此时就让点击停止;

(4)勾选multiple,因为需要采集的是页面链接以及app名字等多种信息;

至此,一级选择器就设置完成了;

二、建立二级采集器,选取需要的信息元素

1、设置二级选择器:选择具体的元素,如下图:

具体操作也很简单,在一级选择器下新建二级选择器,就进入如上图页面,这里和之前的一级选择是一样的,但是具体设置略有不同:

(1)type:这里选择link,这是因为要选择的是对应的链接

(2)之后选择select,把鼠标移到需要选择的元素上,点击即可;

(3)其他就不用设置了,也不需要勾选multiple。

设置和选择完毕之后,点击save selector即可。同理其他的app名字的设置也是一样的,只需要把二级选择器的type类型设置为text即可。

2、实现二级页面的采集。

这里的二级页面指的是在上一页面点击后进入的页面,因此需要的是先采集上一页面的链接,这一步第三步和第四步已经采集完成,那么我们需要采集的页面具体指的是:

那么如何批量采集下载量这个维度呢?其实也特别简单,只需要在链接下新建立一个三级选择器,在第三级选择器中把type类型设置为text即可:

设置地图为:

设置完成后,选择scrap即可,得到的结果:

所有500多条信息,在不到10分钟的时间即可采集完成。

如果您想掌握这种采集方法,我开设了一门《不用代码,10分钟学会微博、豆瓣、知乎、淘宝数据采集》,用视频教学来让你快速学会数据采集,详情可以看我简书主页信息。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯社交用户体验设计

QQ Mac版 Touch Bar功能设计

1461
来自专栏即时通讯技术

IM开发基础知识补课(二):如何设计大量图片文件的服务端存储架构?

一个完善的IM系统中通常充斥着大量的图片内容,包括:用户头像、图片消息、相册、图片表情等等,那么在做服务端架构设计时该如何存储这些图片呢?

2304
来自专栏携程技术中心

干货 | Mvvm 前端数据流框架精讲

1452
来自专栏北京马哥教育

只要十分钟,用Python实现自动化水军评论

作者:gavinfish 来源: http://blog.csdn.net/u013291394/article/details/50527463 玩csdn博...

38710
来自专栏北京马哥教育

中午不知道吃什么?用Python爬取美团外卖评论帮你选餐!

? 一、介绍 朋友暑假实践需要美团外卖APP评论这一份数据,一开始我想,这不就抓取网页源代码再从中提取数据就可以了吗,结果发现事实并非如此,情况和之前崔大讲...

41110
来自专栏kalifaの日々

scitools Understand安装及入门

Understand是一个用来进行静态的软件分析、软件度量、软件可视化的工具。他类似于编译器。编译器的输入是代码,输出是可执行文件,而Understand工具的...

1601
来自专栏京东技术

微信手Q node.js直出框架Hawaii剖析——京东前台技术委员会专题

手机京东技术团队 ? 作者简介 资深前端开发工程师 京东前台技术委员会委员 微信手Q运营产品前端开发组组长 目前负责微信手Q购物入口的前端基础建设及port...

3016
来自专栏韩伟的专栏

经典软件架构模式(二)

今天继续推送“经典软件架构模式(二)之管道和过滤器模式、MVC模式。 管道和过滤器模式 第三个案例是一个WEB的例子,但并不是简单的CGI加数据库,而是一个在...

3086
来自专栏hbbliyong

opoa介绍

一 定义       One Page, One Application(后面缩写为OPOA,或者1P1A), 含义很简单:一个页面就是一个应用。不再使用ifr...

3147
来自专栏Fundebug

如何实现前端微服务化?

3987

扫码关注云+社区