【一文读懂】什么是网络爬虫,每天都在忙乎什么?

先自我介绍一下,我是一只网络爬虫,出生在计算机中,操作系统就是我的爸爸妈妈,现在都活了2000毫秒了,这个放到我们生活的世界来说,已经属于比较长寿了。我出生之后就被安排到工作岗位上去了,我每天的工作就是在计算机网络上面到处跑,就像蜘蛛每天在蜘蛛网上来回觅食一样,大家给我起了一个外号叫做网络爬虫,但是我长得可比蜘蛛好看多了!

那我每天在网络上具体做什么呢?这个真是小孩没娘-说来话长了。首先要说一下我父母的工作,我父母虽然是操作系统,但是他们主要是为一家搜索引擎公司工作,帮助这家公司搜集网上的各种图片并且进行整理。网络上图片太多了,父母实在忙不过来,所以生了很多孩子来帮助他们搜集这些图片。我就是众多子女中的一个,刚出生就被安排去网络上搜集爬取图片了,虽然没有童年,但是我每天的工作很有意思!

友情提示:百度和Google都属于搜索引擎公司,这些公司都大量的网络爬虫。

还记得第一天工作的场景,我跟着很多兄弟姐妹来到了一个叫做任务分发的房间,我们都排好队翘首等待着。趁着这个排队的间隙,我问排在前面的小姐姐,“小姐姐,我们在排队等什么?”小姐姐很温柔,她肯定猜出我是第一次来,语气很温柔的回道“小弟弟,第一次来吧?我们在这排队是等待分配具体工作,一会管理人员会给你一个纸条,上面写着你的目的地以及你要去做什么具体事情。你按照纸条上面的指示做就可以了,一看你就很聪明,做过一次之后你就会熟悉了”被姐姐这么一夸,我顿时自信满满,满怀紧张和期待继续等待着。

很快就排到了我,管理人员看了我一眼,“小弟弟你是新来的吧,看着面生呢,这是你的具体任务内容,加油喔!下一个。”说话间便把一张纸条塞到了我的手上。我离开任务分配车间来到了出发车间,这个地方停着很多车,这些车时速都可以媲美光速,我找了一辆车坐进去。我小心翼翼打开纸条,纸条上面写着几行字“目的地:B站Cosplay漂亮街仓库。工作内容:爬取B站上面Cosplay图片。”我心头窃喜,想不到第一个工作就这么有意思,迫不及待的我启动了按钮,出发啦!

按照纸条上的目的地指示,我在计算机网络上很快就找到了B站。B站服务器大门口贴着告示,很多人都在围观,出于好奇我也凑上去看了看。原来告示内容是关于是否准许爬虫工作者进入的,还有一些爬虫工作准则。毕竟第一次来B站,我必须老老实实按照人家的规则办事,要不很容易被拉进黑名单,进入黑名单之后以后想进B站都难喽。

我顺利的进入了B站服务器并且找到了Cosplay漂亮街的存储仓库,我找到负责人并把纸条递给他看了一下,负责人是一个雷厉风行的人,很快就把我所需要的内容打包放到了我的车上。我瞅了一眼,发现都是原材料,里面除了图片还有很多其他东西,我一脸疑惑的想开口问负责人。他明显看透了我的心思,“小伙子,第一次工作吧?你把这些东西带回去就行,我们除了提供给你图片还会提供一些其他内容,辅助你们工作的喔”。

我不好再次叨扰,说声再见之后就开车回去了,带着很多疑问我开着车以光速回家了。

刚回到家,就有专门的装卸工帮我把带回来的东西搬下车并放到了整理车间。我也跟随着来到了整理车间,车间里面有一张工作台,装卸工已经把东西放到了工作台上面。工作台旁边放着一个垃圾桶和一个储物柜,工作台上放着很多纸条,纸条应该是用来填写任务的,还有一个查询器。我正在狐疑这些是用来做什么的,对面走过来一位看上去很像领导的人,“小伙子,辛苦了!鉴于你是第一次工作,我下面给你介绍一下具体的操作步骤”。我连忙点头,心想领导就是不一样,竟然一眼看出我对工作比较陌生。

“小伙子,一会你需要先把带回来的东西拆开,里面的图片是我们所需要核心物件,你首先要通过查询器查一下我们这有没有这张图片,如果有,你就直接丢到垃圾桶;如果没有,那么就可以放到储物柜了。”领导耐心地指导着。

“那除了图片之外的其他内容呢,怎么处理?”我迫不及待地提问着。

“嗯,小伙子不要急,听我慢慢讲。其他的内容主要是一些HTML,说白了就是B站的网页内容,这些网页里面包含着很多有用的信息。你一会要分析一下这些HTML中存在的超链接,超链接就是那些点击后可以跳转到其他网页的位置。”

“那请问这些分析出来的超链接有啥用呢?”我还是迫不及待的想知道答案。

“求知欲很强嘛。我们和B站之间可是好朋友,以后没准你每天都要B站很多次,但是B站里面那么多仓库,你下次该去哪一家获取我们所需的图片呢?这些超链接就是提示喔。发现新的仓库地址之后,你就填写一个任务纸条,上面写上目的地址以及要做什么事情。不过,发现的新仓库地址也需要先查询一下,是不是其他人最近已经去过了,要不就白跑一趟了”领导耐心的解答着,说完就背着手离开了,“小伙子,开始工作吧,熟能生巧喔”。

说干就干,我开始整理工作台上的内容。按照领导的指导,我这次从B站带回来了10张Cosplay漂亮姐姐照片,通过查询器过滤掉了3张图片,然后把剩下的7张图片放到了存储柜,每当把图片放到存储柜的时候都有一种莫名的成就感!

之后我重点分析带回来的HTML内容,真的在里面发现了3条超链接,都是指向B站其他仓库的地址,通过查询器过滤掉了其中一条链接,因为最近刚有一个小哥哥去过那里了。剩下的两个链接我分别填写了两张任务单,一个是去B站可爱街仓库,一个是去B站高达仓库。分析完顿时感觉很是疲劳,当我要离开工作台时,突然警报响了!我被警报吓出了一身冷汗,只见工作台操作面板上提示“请您输入这次访问的仓库地址并且填写访问时间,方便后续过滤排查使用”。我速度的填写了所需信息,心中默念“也是哈,我不填写的话,可能就会造成其他人再跑一趟漂亮街仓库,是我大意了,下次注意!”

以上就是我第一次工作的经历,很囧但是很有意义。之后的每天我都是领取任务单,然后开车去取内容,然后工作台上进行分析。周而复始,我现在几乎去过了各大网站,有几次我还出国了呢,去了美国和中东等国家。我就是网络爬虫,我很叼,每天全网到处跑!

【技术解读】

网络爬虫:更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫通过计算机网络连接到目的网站之后,获取网站信息内容,然后再进行网页分析。为了防止网站的重复爬取,对于爬取的内容都会进行标记,方式短期内重复爬取。

原文发布于微信公众号 - 张叔叔讲互联网(unclezhangcomeon)

原文发表时间:2018-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏全华班

分享一个别人写的java web商家进销存网站系统

根据当前的服装库存管理体制,一般系统,总是根据所掌握的商品类别,相应分成几个库存管理员进行商品的计划、订货、核对入库;根据销售的需要来发送物品(出库)、并定期进...

1.7K10
来自专栏PingCAP的专栏

TiQuery:All Diagnosis in SQL | TiDB Hackathon 优秀项目分享

“距离 Hackathon 结束已经一个多星期了,感觉心情还是没有从激情中平复过来。不过由于我读书少,这时候好像只能感慨一句,黑客马拉松真是太好玩了……”

15730
来自专栏云+创业计划

如何依托腾讯云完成海量数据的存储和备份

在安防监在我们提供的安防监控体系中,每个监控系统每天会产生几个 T 的视频数据,这些未经处理的视频数据一般需要存储几个星期,经过剪辑和压缩处理的视频数据可能需要...

1.4K10
来自专栏FreeBuf

没时间了,赶紧上车!教你如何在一小时之内加密你的整个数字生活

写在前面的话 Andy Grove曾经担任过英特尔公司的首席执行官,他参与了英特尔公司的创建并主导了公司在1980年-2000年间的成功发展。他是一位匈牙利出生...

35990
来自专栏知晓程序

90% 的直男约会败于尬撩,另外的 10% 都在用这个小程序

打开「开撩神器」小程序,进入主界面,系统会自动展示各种形式的模板,你可以根据自己的喜好,随心所「撩」,自由发挥。

9410
来自专栏拂晓风起

好消息!Html5游戏和动画的福音

22940
来自专栏ShaoYL

APP上线被APPStore拒绝的各种原因

44370
来自专栏Java架构师进阶

作为开发者犯过的两次愚蠢的错误 一定切记切记

上周我和同事们简单地聊了聊我们工作中搞砸的那些事儿。如今早已不再犯那些错了,所以想起过去就觉得很好笑。但是笑归笑,其实当时犯的这些错让我们受益颇深。

10520
来自专栏资深Tester

一个致命的bug--自负

33380
来自专栏极乐技术社区

小程序搜索栏新增“搜索历史” | 微信iOS版更新至6.6.0 ,客户端大更新、公众号界面、后台改版

轻松一刻 ? 漫画来自于西乔《神秘的程序员们》 01 小程序搜索栏新增“搜索历史” 近期,极乐叔发现微信中出现了小程序历史搜索,在小程序发现栏中点击小程序搜索框...

47780

扫码关注云+社区

领取腾讯云代金券