什么是网络爬虫,每天都在忙乎什么?(下篇)

上篇文章中提到我成功到达了B站服务器,并且成功拿到了所需要的Cosplay图片,但是除了图片之外还有一些其他内容,带着很多疑问我开着车以光速回家了。

刚回到家,就有专门的装卸工帮我把带回来的东西搬下车并放到了整理车间。我也跟随着来到了整理车间,车间里面有一张工作台,装卸工已经把东西放到了工作台上面。工作台旁边放着一个垃圾桶和一个储物柜,工作台上放着很多纸条,纸条应该是用来填写任务的,还有一个查询器。我正在狐疑这些是用来做什么的,对面走过来一位看上去很像领导的人,“小伙子,辛苦了!鉴于你是第一次工作,我下面给你介绍一下具体的操作步骤”。我连忙点头,心想领导就是不一样,竟然一眼看出我对工作比较陌生。

“小伙子,一会你需要先把带回来的东西拆开,里面的图片是我们所需要核心物件,你首先要通过查询器查一下我们这有没有这张图片,如果有,你就直接丢到垃圾桶;如果没有,那么就可以放到储物柜了。”领导耐心地指导着。

“那除了图片之外的其他内容呢,怎么处理?”我迫不及待地提问着。

“嗯,小伙子不要急,听我慢慢讲。其他的内容主要是一些HTML,说白了就是B站的网页内容,这些网页里面包含着很多有用的信息。你一会要分析一下这些HTML中存在的超链接,超链接就是那些点击后可以跳转到其他网页的位置。”

“那请问这些分析出来的超链接有啥用呢?”我还是迫不及待的想知道答案。

“求知欲很强嘛。我们和B站之间可是好朋友,以后没准你每天都要B站很多次,但是B站里面那么多仓库,你下次该去哪一家获取我们所需的图片呢?这些超链接就是提示喔。发现新的仓库地址之后,你就填写一个任务纸条,上面写上目的地址以及要做什么事情。不过,发现的新仓库地址也需要先查询一下,是不是其他人最近已经去过了,要不就白跑一趟了”领导耐心的解答着,说完就背着手离开了,“小伙子,开始工作吧,熟能生巧喔”。

说干就干,我开始整理工作台上的内容。按照领导的指导,我这次从B站带回来了10张Cosplay漂亮姐姐照片,通过查询器过滤掉了3张图片,然后把剩下的7张图片放到了存储柜,每当把图片放到存储柜的时候都有一种莫名的成就感!

之后我重点分析带回来的HTML内容,真的在里面发现了3条超链接,都是指向B站其他仓库的地址,通过查询器过滤掉了其中一条链接,因为最近刚有一个小哥哥去过那里了。剩下的两个链接我分别填写了两张任务单,一个是去B站可爱街仓库,一个是去B站高达仓库。分析完顿时感觉很是疲劳,当我要离开工作台时,突然警报响了!我被警报吓出了一身冷汗,只见工作台操作面板上提示“请您输入这次访问的仓库地址并且填写访问时间,方便后续过滤排查使用”。我速度的填写了所需信息,心中默念“也是哈,我不填写的话,可能就会造成其他人再跑一趟漂亮街仓库,是我大意了,下次注意!”

以上就是我第一次工作的经历,很囧但是很有意义。之后的每天我都是领取任务单,然后开车去取内容,然后工作台上进行分析。周而复始,我现在几乎去过了各大网站,有几次我还出国了呢,去了美国和中东等国家。我就是网络爬虫,我很叼,每天全网到处跑!

【技术解读】

网络爬虫:更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫通过计算机网络连接到目的网站之后,获取网站信息内容,然后再进行网页分析。为了防止网站的重复爬取,对于爬取的内容都会进行标记,方式短期内重复爬取。

原文发布于微信公众号 - 张叔叔讲互联网(unclezhangcomeon)

原文发表时间:2018-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

新年大作战:抵制恶意推广,守护老爸的旧电脑

每年过年回家,基本上都需要做一件事情:重新清理我爸电脑上的垃圾软件或者直接重装系统。 想我爸也是个国家级教师,平时工作使用电脑的频次并不低,却对于电脑这东西跟绝...

2146
来自专栏西枫里博客

推荐几个vs code的常用插件

最近才用上vs code神器,之前一直是sublime一条道走到黑,前段时间sublime疯狂正版守卫行为,让我的sublime一下子回到了解放前。不得已,只得...

1071
来自专栏纯洁的微笑

Redis 深度历险:核心原理与应用实践

Redis 是如今互联网技术架构中,使用最广泛的缓存。支持复杂的数据结构,支持持久化,支持主从集群,支持高可用,支持较大的value存储...

2032
来自专栏Crossin的编程教室

3分钟破译朋友圈测试小游戏

最近,朋友圈时不时会流行起某个测试类小游戏,比如你的性格图谱啦,你是三体中的哪个角色啦,你有什么超能力啦……昨天晚上在某个群里,又被一个测测你是什么书的小游戏刷...

4567
来自专栏全栈数据化营销

不用代码,10分钟采集58同城二手车数据信息

最近得空把之前的一些案例稍微整理一下,之前做的案例有: 案例1:汽车之家网站奔驰宝马宝马信息采集 案例2:天涯论坛各个板块文章信息采集 案例3:豆瓣电影、读书板...

4438
来自专栏Java后端技术栈

Redis 深度历险:核心原理与应用实践!

Redis 是如今互联网技术架构中,使用最广泛的缓存。支持复杂的数据结构,支持持久化,支持主从集群,支持高可用,支持较大的value存储...

2291
来自专栏刺客博客

谈谈云免原理

6.6K2
来自专栏tkokof 的技术,小趣及杂念

“疑难杂症”又二记

  目前开发的游戏很多地方都用到了Hotween,个人感觉还是挺不错的(题外话,Hotween的第二版Dotween应该也快正式Release了,各种改进令人期...

903
来自专栏友弟技术工作室

工欲善其事,必先利其器之------Ubuntu工具类正文

背景: 1.自己接触linux,也有3年了,从大三开始.最早是redhet桌面版.然后linux的字符界面.上家公司的职位是运维开发工程师,一直操作的都是lin...

4129
来自专栏知识分享

1-学习GPRS_Air202(Air202开发板介绍)

8677

扫码关注云+社区

领取腾讯云代金券