不用代码，2分钟抓取胡歌全部微博内容

沉默的白面书生

发布于 2018-05-07 11:31:36

3.1K1

发布于 2018-05-07 11:31:36

文章被收录于专栏：全栈数据化营销

在之前的文章和课程中，对web scraper的安装和使用方法都做了非常详细说明，相信大家都明白了web scraper的用处和采集流程，那么今天就以采集影视明星胡歌微博为例，继续深入说明web scraper的使用。

安装和使用web scraper的方法可以翻看我之前的文章，如果找不到文章或者无法下载web scraper插件可以联系我微信zds369466004。

打开目标网页：https://weibo.com/hu_ge?profile_ftype=1&is_all=1#_0，需要采集的是微博内容，因此，在目标网页上执行下列操作：

一、通过下面通过下面三种方法打开web scraper：

1、windows, linux：Ctrl+Shift+I 或者 f12, 或者Tools / Developer tools

2、mac： Cmd+Opt+I, 或者Tools / Developer tools

3、或者：右键——> 审查元素（适用于各个系统），选择web scraper即可。

二、新建采集站点地图。

1、点击create new sitemap选择create sitemap,如下图所示即可建立一个站点地图。

2、点击create sitemap后就可以进入到站点地图的相关设置页面：

这里需要填写的是sitemap name和start url：

Sitemap：是地图名字，可以自己填写

Start url：指的是采集链接，就是你采集的页面的链接，直接从浏览器将链接复制即可。

最后点击create sitemap即可创建好了采集地图。

三、设置一级采集器

因为我们要采集的内容包括微博内容，所以就需要选设定选择范围，这里范围的设定就是一级采集器。

在之前第二步建立好站点采集器后的基础上，就进入到了一级采集器的设置页面：

这些设置在之前的文章中都有非常详细的介绍，如果有兴趣的朋友，可以看看之前的文章，那么这里就做简单的介绍：

1、Id：指的是以及选择器的名称，大家可以根据自己需求来设置，这里设置content；

2、Type：指的是采集器的内容，有采集文本的text、有采集链接的link、有采集图片的image类型等等，因为这里是翻页，此处选择Element click，指的就是点击翻页。

3、点击 “Select” 进行元素选择，把鼠标移到目标对象上，对象会变成淡蓝色，当点击需要采集的元素后，就会变成淡红色，这就表示选择好了元素。

在选择第一个元素后，再移动鼠标放到第二个需要选择的元素上，点击元素变成红色之后，也表示选中了。此时页面页面上相同的元素就会编程一样的红色，完成后，点击悬浮工具框蓝色的“Done slecting!"

4、勾选 “Multiple”，表示选择的内容是多样的；

5、Delay：表示延迟时间，意思是等待多长时间后，再进行抓取，建议填2000

6、点击”Save Selector“

这步完成后，你会发现，sitemap下出现了一个叫content的选择器，如下图

四：设置二级采集器，选择具体的元素

在第三个步骤设置好一级采集器也就是设定选择范围后，我们需要提取选择范围中我们需要的元素，这就是二级采集器的功能。

1、点击content进入到二级采集器添加页面；

2、点击add new selector，建立二级采集器；

3、进入到二级采集器设置页面，这部分其实是和一级采集器的内容是相同的，但是在设置上是有差别的：

（1）Id：可以自己设置，自己看懂就好；

（2）Type：二级采集器的类型，因为要采集的是文本内容，因此采集器此处选择Text

（3）点击 “Select” 进行元素选择，把鼠标移动到第一条微博内容上，点击需要的内容，第一个帖子会变黄，我们点击这个黄色区域，它会变为红色，此时就表示以及选取目标；

（4）点击”Save Selector“，其他的都不用设置。

以上，我们抓取胡歌微博的所有设置都已完成。

五、开始正式抓取：

1、在经过上面4个步骤设置后，就可以正式开始抓取了，如下图选择scrape即可：

2、点击scrape后，就会进入到时间设置页面，这几个都默认就行：

3、直接点击“Start scraping”，点击后，浏览器会弹出一个新窗口，进行抓取工作，不要关闭，等待他抓取完毕。你会发现，弹出的窗口，会自动下拉鼠标，模拟人的手，自动化的将这页全部的帖子全部抓取下来。

完毕后，会出现抓取的数据，如下图：如下图：

4、选择export data as csv就可以导出表格；

到这里就完成了全部的抓取过程，我想如何掌握后可以非常快速地设置后，基本上2分钟内就可以搞定了。这就比用python要快很多了。

我其实挺不建议非科班的人因为数据采集然后花大量的时间去学习python，因为数据采集完成之后还需要进行更加复杂的假设和分析，这才是真正重要的地方。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.01.23 ，如有侵权请联系 cloudcommunity@tencent.com 删除

爬虫

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

爬虫

登录后参与评论

0 条评论

热度

不用代码，2分钟抓取胡歌全部微博内容

不用代码，2分钟抓取胡歌全部微博内容

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐