专栏首页全栈数据化营销不用代码,2分钟抓取胡歌全部微博内容

不用代码,2分钟抓取胡歌全部微博内容

在之前的文章和课程中,对web scraper的安装和使用方法都做了非常详细说明,相信大家都明白了web scraper的用处和采集流程,那么今天就以采集影视明星胡歌微博为例,继续深入说明web scraper的使用。

安装和使用web scraper的方法可以翻看我之前的文章,如果找不到文章或者无法下载web scraper插件可以联系我微信zds369466004。

打开目标网页:https://weibo.com/hu_ge?profile_ftype=1&is_all=1#_0,需要采集的是微博内容,因此,在目标网页上执行下列操作:

一、通过下面通过下面三种方法打开web scraper:

1、windows, linux:Ctrl+Shift+I 或者 f12, 或者Tools / Developer tools

2、mac: Cmd+Opt+I, 或者Tools / Developer tools

3、或者:右键——> 审查元素(适用于各个系统),选择web scraper即可。

二、新建采集站点地图。

1、点击create new sitemap选择create sitemap,如下图所示即可建立一个站点地图。

2、点击create sitemap后就可以进入到站点地图的相关设置页面:

这里需要填写的是sitemap name和start url:

Sitemap:是地图名字,可以自己填写

Start url:指的是采集链接,就是你采集的页面的链接,直接从浏览器将链接复制即可。

最后点击create sitemap即可创建好了采集地图。

三、设置一级采集器

因为我们要采集的内容包括微博内容,所以就需要选设定选择范围,这里范围的设定就是一级采集器。

在之前第二步建立好站点采集器后的基础上,就进入到了一级采集器的设置页面:

这些设置在之前的文章中都有非常详细的介绍,如果有兴趣的朋友,可以看看之前的文章,那么这里就做简单的介绍:

1、Id:指的是以及选择器的名称,大家可以根据自己需求来设置,这里设置content;

2、Type:指的是采集器的内容,有采集文本的text、有采集链接的link、有采集图片的image类型等等,因为这里是翻页,此处选择Element click,指的就是点击翻页。

3、点击 “Select” 进行元素选择,把鼠标移到目标对象上,对象会变成淡蓝色,当点击需要采集的元素后,就会变成淡红色,这就表示选择好了元素。

在选择第一个元素后,再移动鼠标放到第二个需要选择的元素上,点击元素变成红色之后,也表示选中了。此时页面页面上相同的元素就会编程一样的红色,完成后,点击悬浮工具框蓝色的“Done slecting!"

4、勾选 “Multiple”,表示选择的内容是多样的;

5、Delay:表示延迟时间,意思是等待多长时间后,再进行抓取,建议填2000

6、点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

四:设置二级采集器,选择具体的元素

在第三个步骤设置好一级采集器也就是设定选择范围后,我们需要提取选择范围中我们需要的元素,这就是二级采集器的功能。

1、点击content进入到二级采集器添加页面;

2、点击add new selector,建立二级采集器;

3、进入到二级采集器设置页面,这部分其实是和一级采集器的内容是相同的,但是在设置上是有差别的:

(1)Id:可以自己设置,自己看懂就好;

(2)Type:二级采集器的类型,因为要采集的是文本内容,因此采集器此处选择Text

(3)点击 “Select” 进行元素选择,把鼠标移动到第一条微博内容上,点击需要的内容,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色,此时就表示以及选取目标;

(4)点击”Save Selector“,其他的都不用设置。

以上,我们抓取胡歌微博的所有设置都已完成。

五、开始正式抓取:

1、在经过上面4个步骤设置后,就可以正式开始抓取了,如下图选择scrape即可:

2、点击scrape后,就会进入到时间设置页面,这几个都默认就行:

3、直接点击“Start scraping”,点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:如下图:

4、选择export data as csv就可以导出表格;

到这里就完成了全部的抓取过程,我想如何掌握后可以非常快速地设置后,基本上2分钟内就可以搞定了。这就比用python要快很多了。

我其实挺不建议非科班的人因为数据采集然后花大量的时间去学习python,因为数据采集完成之后还需要进行更加复杂的假设和分析,这才是真正重要的地方。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 运营和新媒体人必会:不用代码,10分钟采集ASO数据

    很多做运营的朋友,经常需要爬取网上数据和资料作为分析的样本资料,例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据,通常需要花大量的时间重复复...

    沉默的白面书生
  • 不用代码,10分钟会采集微博、微信、知乎、58同城数据和信息

     学会信息和数据快速采集都是非常必要的,因为这能大大提高工作效率。在学会python和火车头之前,web scraper是我最常用的采集工具了,设置简单,非常高...

    沉默的白面书生
  • 不用代码,采集知乎、微博、微信、58系列之二:实现无限页面采集

    之前的文章中,详细地介绍了web scraper的安装以及完整的采集流程,但是也只是局限在一个页面采集,那么如果我要实现多页面采集呢,这要如何实现呢? 首先我们...

    沉默的白面书生
  • IDEA 导入web项目

    你会发现如果该项目已经被 IDEA 确定为 web 项目,文件夹的右下角会有一个黑色的标记。

    wsuo
  • 二次验证码是什么,如何使用?

    “二次验证码”是国外谷歌Google二次验证的“微信小程序”的实现,可以让您在微信上很方便的使用二次验证码,保护你的账户安全。

    用户3637271
  • 用了13年的wpa2协议出漏洞,新型KRACH攻击手法.

    介绍 研究人员发现WPA2的严重弱点,WPA2是保护所有现代受保护的Wi-Fi网络的协议。内的受害者的范围内的攻击者可以利用使用这些弱点.具体来说,攻击者可以使...

    用户1467662
  • 电脑屏幕闪烁怎么办?教你两种解决方法

    电脑是必不可少的办公工具,如果电脑不能正常运作会直接导致我们的工作无法正常进行。我们的电脑有时候会出现屏幕一直闪烁的情况,特别影响正常使用电脑...

    高效办公
  • Android网络编程(五)OkHttp用法全解析

    相关文章 Android网络编程(一)HTTP协议原理 Android网络编程(二)HttpClient与HttpURLConnection Androi...

    用户1269200
  • iOS开发:下架App的步骤

    6.如想重新上架,点击“在所在区域供应”,选择后可点击后面的编辑选择销售区域,然后点击保存就重新上架了。

    freesan44
  • HTML5选择器

    注意:IE6-8不支持":checked",":enabled",":disabled"这三种选择器。著作权归作者所有。

    踏浪

扫码关注云+社区

领取腾讯云代金券