前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是网络爬虫,每天都在忙乎什么?(下篇)

什么是网络爬虫,每天都在忙乎什么?(下篇)

作者头像
张叔叔讲互联网
发布2018-10-29 16:26:53
4970
发布2018-10-29 16:26:53
举报

上篇文章中提到我成功到达了B站服务器,并且成功拿到了所需要的Cosplay图片,但是除了图片之外还有一些其他内容,带着很多疑问我开着车以光速回家了。

刚回到家,就有专门的装卸工帮我把带回来的东西搬下车并放到了整理车间。我也跟随着来到了整理车间,车间里面有一张工作台,装卸工已经把东西放到了工作台上面。工作台旁边放着一个垃圾桶和一个储物柜,工作台上放着很多纸条,纸条应该是用来填写任务的,还有一个查询器。我正在狐疑这些是用来做什么的,对面走过来一位看上去很像领导的人,“小伙子,辛苦了!鉴于你是第一次工作,我下面给你介绍一下具体的操作步骤”。我连忙点头,心想领导就是不一样,竟然一眼看出我对工作比较陌生。

“小伙子,一会你需要先把带回来的东西拆开,里面的图片是我们所需要核心物件,你首先要通过查询器查一下我们这有没有这张图片,如果有,你就直接丢到垃圾桶;如果没有,那么就可以放到储物柜了。”领导耐心地指导着。

“那除了图片之外的其他内容呢,怎么处理?”我迫不及待地提问着。

“嗯,小伙子不要急,听我慢慢讲。其他的内容主要是一些HTML,说白了就是B站的网页内容,这些网页里面包含着很多有用的信息。你一会要分析一下这些HTML中存在的超链接,超链接就是那些点击后可以跳转到其他网页的位置。”

“那请问这些分析出来的超链接有啥用呢?”我还是迫不及待的想知道答案。

“求知欲很强嘛。我们和B站之间可是好朋友,以后没准你每天都要B站很多次,但是B站里面那么多仓库,你下次该去哪一家获取我们所需的图片呢?这些超链接就是提示喔。发现新的仓库地址之后,你就填写一个任务纸条,上面写上目的地址以及要做什么事情。不过,发现的新仓库地址也需要先查询一下,是不是其他人最近已经去过了,要不就白跑一趟了”领导耐心的解答着,说完就背着手离开了,“小伙子,开始工作吧,熟能生巧喔”。

说干就干,我开始整理工作台上的内容。按照领导的指导,我这次从B站带回来了10张Cosplay漂亮姐姐照片,通过查询器过滤掉了3张图片,然后把剩下的7张图片放到了存储柜,每当把图片放到存储柜的时候都有一种莫名的成就感!

之后我重点分析带回来的HTML内容,真的在里面发现了3条超链接,都是指向B站其他仓库的地址,通过查询器过滤掉了其中一条链接,因为最近刚有一个小哥哥去过那里了。剩下的两个链接我分别填写了两张任务单,一个是去B站可爱街仓库,一个是去B站高达仓库。分析完顿时感觉很是疲劳,当我要离开工作台时,突然警报响了!我被警报吓出了一身冷汗,只见工作台操作面板上提示“请您输入这次访问的仓库地址并且填写访问时间,方便后续过滤排查使用”。我速度的填写了所需信息,心中默念“也是哈,我不填写的话,可能就会造成其他人再跑一趟漂亮街仓库,是我大意了,下次注意!”

以上就是我第一次工作的经历,很囧但是很有意义。之后的每天我都是领取任务单,然后开车去取内容,然后工作台上进行分析。周而复始,我现在几乎去过了各大网站,有几次我还出国了呢,去了美国和中东等国家。我就是网络爬虫,我很叼,每天全网到处跑!

【技术解读】

网络爬虫:更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫通过计算机网络连接到目的网站之后,获取网站信息内容,然后再进行网页分析。为了防止网站的重复爬取,对于爬取的内容都会进行标记,方式短期内重复爬取。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 张叔叔讲互联网 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档