前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不用代码,2分钟抓取胡歌全部微博内容

不用代码,2分钟抓取胡歌全部微博内容

作者头像
沉默的白面书生
发布2018-05-07 11:31:36
3.1K1
发布2018-05-07 11:31:36
举报

在之前的文章和课程中,对web scraper的安装和使用方法都做了非常详细说明,相信大家都明白了web scraper的用处和采集流程,那么今天就以采集影视明星胡歌微博为例,继续深入说明web scraper的使用。

安装和使用web scraper的方法可以翻看我之前的文章,如果找不到文章或者无法下载web scraper插件可以联系我微信zds369466004。

打开目标网页:https://weibo.com/hu_ge?profile_ftype=1&is_all=1#_0,需要采集的是微博内容,因此,在目标网页上执行下列操作:

一、通过下面通过下面三种方法打开web scraper:

1、windows, linux:Ctrl+Shift+I 或者 f12, 或者Tools / Developer tools

2、mac: Cmd+Opt+I, 或者Tools / Developer tools

3、或者:右键——> 审查元素(适用于各个系统),选择web scraper即可。

二、新建采集站点地图。

1、点击create new sitemap选择create sitemap,如下图所示即可建立一个站点地图。

2、点击create sitemap后就可以进入到站点地图的相关设置页面:

这里需要填写的是sitemap name和start url:

Sitemap:是地图名字,可以自己填写

Start url:指的是采集链接,就是你采集的页面的链接,直接从浏览器将链接复制即可。

最后点击create sitemap即可创建好了采集地图。

三、设置一级采集器

因为我们要采集的内容包括微博内容,所以就需要选设定选择范围,这里范围的设定就是一级采集器。

在之前第二步建立好站点采集器后的基础上,就进入到了一级采集器的设置页面:

这些设置在之前的文章中都有非常详细的介绍,如果有兴趣的朋友,可以看看之前的文章,那么这里就做简单的介绍:

1、Id:指的是以及选择器的名称,大家可以根据自己需求来设置,这里设置content;

2、Type:指的是采集器的内容,有采集文本的text、有采集链接的link、有采集图片的image类型等等,因为这里是翻页,此处选择Element click,指的就是点击翻页。

3、点击 “Select” 进行元素选择,把鼠标移到目标对象上,对象会变成淡蓝色,当点击需要采集的元素后,就会变成淡红色,这就表示选择好了元素。

在选择第一个元素后,再移动鼠标放到第二个需要选择的元素上,点击元素变成红色之后,也表示选中了。此时页面页面上相同的元素就会编程一样的红色,完成后,点击悬浮工具框蓝色的“Done slecting!"

4、勾选 “Multiple”,表示选择的内容是多样的;

5、Delay:表示延迟时间,意思是等待多长时间后,再进行抓取,建议填2000

6、点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

四:设置二级采集器,选择具体的元素

在第三个步骤设置好一级采集器也就是设定选择范围后,我们需要提取选择范围中我们需要的元素,这就是二级采集器的功能。

1、点击content进入到二级采集器添加页面;

2、点击add new selector,建立二级采集器;

3、进入到二级采集器设置页面,这部分其实是和一级采集器的内容是相同的,但是在设置上是有差别的:

(1)Id:可以自己设置,自己看懂就好;

(2)Type:二级采集器的类型,因为要采集的是文本内容,因此采集器此处选择Text

(3)点击 “Select” 进行元素选择,把鼠标移动到第一条微博内容上,点击需要的内容,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色,此时就表示以及选取目标;

(4)点击”Save Selector“,其他的都不用设置。

以上,我们抓取胡歌微博的所有设置都已完成。

五、开始正式抓取:

1、在经过上面4个步骤设置后,就可以正式开始抓取了,如下图选择scrape即可:

2、点击scrape后,就会进入到时间设置页面,这几个都默认就行:

3、直接点击“Start scraping”,点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:如下图:

4、选择export data as csv就可以导出表格;

到这里就完成了全部的抓取过程,我想如何掌握后可以非常快速地设置后,基本上2分钟内就可以搞定了。这就比用python要快很多了。

我其实挺不建议非科班的人因为数据采集然后花大量的时间去学习python,因为数据采集完成之后还需要进行更加复杂的假设和分析,这才是真正重要的地方。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.01.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档