前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >运营和新媒体人必会:不用代码,10分钟采集ASO数据

运营和新媒体人必会:不用代码,10分钟采集ASO数据

作者头像
沉默的白面书生
发布2018-05-07 14:56:51
8990
发布2018-05-07 14:56:51
举报

很多做运营的朋友,经常需要爬取网上数据和资料作为分析的样本资料,例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据,通常需要花大量的时间重复复制和黏贴,这样费时费力,而且获取数据之后更重要的是分析得到想要的答案,把时间花在大量复制黏贴上有本末倒置的嫌疑。

由于很多运营本身工作繁忙,没有时间系统学习python编程语言以及复杂的火车头采集软件,于是就给大家推荐一款基于浏览器的采集插件web

scraper,我开设了一门专门的课程《不用代码,10分钟学会微博、知乎、豆瓣、58同城等网站数据采集》,里面有非常详细的知识介绍和实操案例。

Ok,今天就以采集ASO114网站为例,具体介绍这款插件在实际采集当中的运用。假设我要采集ASO114网是关于运营app的介绍以及下一页面的下载量数据,一个一个复制显然是不合理的,那么我们来看看web scraper是如何快速采集的。

需要注意的是,关于插件的安装和设置,在之前的课程都有相关说明,有兴趣的朋友可以去看看。

一、建立一级采集器,设定选择范围

1、进入采集页面https://aso114.com/a/%E8%BF%90%E8%90%A5/,通过快捷键:按【F12】键,选择【Web Scraper】启动插件;

2、新建站点地图:点击【Create new sitemap】→【Create Sitemap】,新建抓取任务。新建后如下图填写信息,填写完点击【CreateSitemap】创建:

3、设置一级采集器:具体如下如所示

有几个设置这里需要注意的是:

(1)type:这里选择的是element click,因为网页页面需要点击下方的加载更加,才能把全部信息展示出来;

(2)click type:这里选择的是click more,因为需要多次点击“加载更多”才能展示全部信息;

(3)click element uniqueness:这里选择的是unique HTML,因为当加载更多不能点击的时候会出现网页代码的改变,此时就让点击停止;

(4)勾选multiple,因为需要采集的是页面链接以及app名字等多种信息;

至此,一级选择器就设置完成了;

二、建立二级采集器,选取需要的信息元素

1、设置二级选择器:选择具体的元素,如下图:

具体操作也很简单,在一级选择器下新建二级选择器,就进入如上图页面,这里和之前的一级选择是一样的,但是具体设置略有不同:

(1)type:这里选择link,这是因为要选择的是对应的链接

(2)之后选择select,把鼠标移到需要选择的元素上,点击即可;

(3)其他就不用设置了,也不需要勾选multiple。

设置和选择完毕之后,点击save selector即可。同理其他的app名字的设置也是一样的,只需要把二级选择器的type类型设置为text即可。

2、实现二级页面的采集。

这里的二级页面指的是在上一页面点击后进入的页面,因此需要的是先采集上一页面的链接,这一步第三步和第四步已经采集完成,那么我们需要采集的页面具体指的是:

那么如何批量采集下载量这个维度呢?其实也特别简单,只需要在链接下新建立一个三级选择器,在第三级选择器中把type类型设置为text即可:

设置地图为:

设置完成后,选择scrap即可,得到的结果:

所有500多条信息,在不到10分钟的时间即可采集完成。

如果您想掌握这种采集方法,我开设了一门《不用代码,10分钟学会微博、豆瓣、知乎、淘宝数据采集》,用视频教学来让你快速学会数据采集,详情可以看我简书主页信息。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.02.08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档