前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【一文读懂】什么是网络爬虫,每天都在忙乎什么?

【一文读懂】什么是网络爬虫,每天都在忙乎什么?

作者头像
张叔叔讲互联网
发布2018-10-29 16:25:55
8440
发布2018-10-29 16:25:55
举报

先自我介绍一下,我是一只网络爬虫,出生在计算机中,操作系统就是我的爸爸妈妈,现在都活了2000毫秒了,这个放到我们生活的世界来说,已经属于比较长寿了。我出生之后就被安排到工作岗位上去了,我每天的工作就是在计算机网络上面到处跑,就像蜘蛛每天在蜘蛛网上来回觅食一样,大家给我起了一个外号叫做网络爬虫,但是我长得可比蜘蛛好看多了!

那我每天在网络上具体做什么呢?这个真是小孩没娘-说来话长了。首先要说一下我父母的工作,我父母虽然是操作系统,但是他们主要是为一家搜索引擎公司工作,帮助这家公司搜集网上的各种图片并且进行整理。网络上图片太多了,父母实在忙不过来,所以生了很多孩子来帮助他们搜集这些图片。我就是众多子女中的一个,刚出生就被安排去网络上搜集爬取图片了,虽然没有童年,但是我每天的工作很有意思!

友情提示:百度和Google都属于搜索引擎公司,这些公司都大量的网络爬虫。

还记得第一天工作的场景,我跟着很多兄弟姐妹来到了一个叫做任务分发的房间,我们都排好队翘首等待着。趁着这个排队的间隙,我问排在前面的小姐姐,“小姐姐,我们在排队等什么?”小姐姐很温柔,她肯定猜出我是第一次来,语气很温柔的回道“小弟弟,第一次来吧?我们在这排队是等待分配具体工作,一会管理人员会给你一个纸条,上面写着你的目的地以及你要去做什么具体事情。你按照纸条上面的指示做就可以了,一看你就很聪明,做过一次之后你就会熟悉了”被姐姐这么一夸,我顿时自信满满,满怀紧张和期待继续等待着。

很快就排到了我,管理人员看了我一眼,“小弟弟你是新来的吧,看着面生呢,这是你的具体任务内容,加油喔!下一个。”说话间便把一张纸条塞到了我的手上。我离开任务分配车间来到了出发车间,这个地方停着很多车,这些车时速都可以媲美光速,我找了一辆车坐进去。我小心翼翼打开纸条,纸条上面写着几行字“目的地:B站Cosplay漂亮街仓库。工作内容:爬取B站上面Cosplay图片。”我心头窃喜,想不到第一个工作就这么有意思,迫不及待的我启动了按钮,出发啦!

按照纸条上的目的地指示,我在计算机网络上很快就找到了B站。B站服务器大门口贴着告示,很多人都在围观,出于好奇我也凑上去看了看。原来告示内容是关于是否准许爬虫工作者进入的,还有一些爬虫工作准则。毕竟第一次来B站,我必须老老实实按照人家的规则办事,要不很容易被拉进黑名单,进入黑名单之后以后想进B站都难喽。

我顺利的进入了B站服务器并且找到了Cosplay漂亮街的存储仓库,我找到负责人并把纸条递给他看了一下,负责人是一个雷厉风行的人,很快就把我所需要的内容打包放到了我的车上。我瞅了一眼,发现都是原材料,里面除了图片还有很多其他东西,我一脸疑惑的想开口问负责人。他明显看透了我的心思,“小伙子,第一次工作吧?你把这些东西带回去就行,我们除了提供给你图片还会提供一些其他内容,辅助你们工作的喔”。

我不好再次叨扰,说声再见之后就开车回去了,带着很多疑问我开着车以光速回家了。

刚回到家,就有专门的装卸工帮我把带回来的东西搬下车并放到了整理车间。我也跟随着来到了整理车间,车间里面有一张工作台,装卸工已经把东西放到了工作台上面。工作台旁边放着一个垃圾桶和一个储物柜,工作台上放着很多纸条,纸条应该是用来填写任务的,还有一个查询器。我正在狐疑这些是用来做什么的,对面走过来一位看上去很像领导的人,“小伙子,辛苦了!鉴于你是第一次工作,我下面给你介绍一下具体的操作步骤”。我连忙点头,心想领导就是不一样,竟然一眼看出我对工作比较陌生。

“小伙子,一会你需要先把带回来的东西拆开,里面的图片是我们所需要核心物件,你首先要通过查询器查一下我们这有没有这张图片,如果有,你就直接丢到垃圾桶;如果没有,那么就可以放到储物柜了。”领导耐心地指导着。

“那除了图片之外的其他内容呢,怎么处理?”我迫不及待地提问着。

“嗯,小伙子不要急,听我慢慢讲。其他的内容主要是一些HTML,说白了就是B站的网页内容,这些网页里面包含着很多有用的信息。你一会要分析一下这些HTML中存在的超链接,超链接就是那些点击后可以跳转到其他网页的位置。”

“那请问这些分析出来的超链接有啥用呢?”我还是迫不及待的想知道答案。

“求知欲很强嘛。我们和B站之间可是好朋友,以后没准你每天都要B站很多次,但是B站里面那么多仓库,你下次该去哪一家获取我们所需的图片呢?这些超链接就是提示喔。发现新的仓库地址之后,你就填写一个任务纸条,上面写上目的地址以及要做什么事情。不过,发现的新仓库地址也需要先查询一下,是不是其他人最近已经去过了,要不就白跑一趟了”领导耐心的解答着,说完就背着手离开了,“小伙子,开始工作吧,熟能生巧喔”。

说干就干,我开始整理工作台上的内容。按照领导的指导,我这次从B站带回来了10张Cosplay漂亮姐姐照片,通过查询器过滤掉了3张图片,然后把剩下的7张图片放到了存储柜,每当把图片放到存储柜的时候都有一种莫名的成就感!

之后我重点分析带回来的HTML内容,真的在里面发现了3条超链接,都是指向B站其他仓库的地址,通过查询器过滤掉了其中一条链接,因为最近刚有一个小哥哥去过那里了。剩下的两个链接我分别填写了两张任务单,一个是去B站可爱街仓库,一个是去B站高达仓库。分析完顿时感觉很是疲劳,当我要离开工作台时,突然警报响了!我被警报吓出了一身冷汗,只见工作台操作面板上提示“请您输入这次访问的仓库地址并且填写访问时间,方便后续过滤排查使用”。我速度的填写了所需信息,心中默念“也是哈,我不填写的话,可能就会造成其他人再跑一趟漂亮街仓库,是我大意了,下次注意!”

以上就是我第一次工作的经历,很囧但是很有意义。之后的每天我都是领取任务单,然后开车去取内容,然后工作台上进行分析。周而复始,我现在几乎去过了各大网站,有几次我还出国了呢,去了美国和中东等国家。我就是网络爬虫,我很叼,每天全网到处跑!

【技术解读】

网络爬虫:更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫通过计算机网络连接到目的网站之后,获取网站信息内容,然后再进行网页分析。为了防止网站的重复爬取,对于爬取的内容都会进行标记,方式短期内重复爬取。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 张叔叔讲互联网 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档