专栏首页指尖数虫爬虫开发者职业生涯的终止!

爬虫开发者职业生涯的终止!

"给你个帐号,你用这个帐号登录进XXX系统,把所有的数据给我爬下来!" “这个是犯法的吧,我不做!”

几年前做过一段时间的爬虫开发,这是跟老板的一段对话。作为一个程序员,就算是奉行技术无罪论但是也应该明白这些事情是犯法的。很可能就会因为一段代码导致踏入牢狱。有时宁愿得罪了领导也不能接触及法律的工作。 (后来怼的多了我就被开了..)

为什么做爬虫?

毕业后的第一份工作是任职在一家网络舆情公司,网络舆情公司大部分是依赖爬虫技术的。利用爬虫技术获取各大论坛、微博、资讯网站等数据。对数据进行分析后发送给客户。

印象深刻的是有一次老板在全体会议上讲到公司的发展、数据的价值。"目前为止我们为客户推送的数据已有XX条,签约客户的总费用为XXX万元。折合每条数据X元"。当时的数据采集的都是开放的数据。论坛、微博、新闻资讯等网站的数据都是开放的数据而公司对于数据的处理可能仅仅是把数据分析、分类后推送个目标客户。(听起来跟今日头条很像,但是走的是不同的路而已。) 从那时开始对于爬虫、数据产生浓厚的兴趣。当时‘大数据’这个词刚刚在国内火起来。

步步陷落,技术无罪!

再后来跳槽到另外一家公司,这次不再是舆情数据公司而变成了企业信息相关公司。企业信息数据的来源同样依赖于爬虫,获取围绕企业相关的数据采集。企业数据的获取难度就大了一些,企业数据的单条数据价格更高。所以很多的爬虫也都瞄准了这个市场。所以要采集的那些网站压力真的非常大,甚至是使用浏览器正常访问网站都没办法打开。

企业信息的采集大部分依赖于政府的开放数据,可能很多做爬虫的同学都了解这个。部分的信息可能来自于其他的网站或者是合作机构提供的数据接口。至于合作机构的数据是如何获得的就不知道了。但是可以知道的是,爬虫对此类的网站服务器带来了非常大的伤害是肯定的。政府类的网站相对运营网站访问速度都非常的慢,但是之前可能会以为这个是开发的问题。之后我就不会了,如果某个政府类的网站访问速度非常慢,就会考虑一下这个网站提供的数据是不是价值很大?

再后来觉得工作没有什么意思,每天都在破解网站的验证码、网站结构的变更、网站新版本的发布。努力的采集更多的数据。努力的兼容真实的用户行为等等。这种工作非常的枯燥,后来就提出辞职了。

第三家公司是作为一个爬虫/大数据工程师入职的。公司是金融征信的,对金融征信有了解的大概也知道要爬虫是做什么。只不过这个不再是做爬虫的工作,转而成为了大数据工程师。因为公司不想自己开发爬虫,而是利用其它公司采集到的数据来进行数据整合。而本人也从一个爬虫开发进而成为一个大数据工程师。征信数据都是通过第三方数据平台获取,包括最近刚刚被上头条数据公司。

当年大数据兴起的时候所有的公司都知道大数据的概念,但是很少有人知道大数据是从何而来。如何在公司的业务上利用到大数据。所以很多的创业公司利用爬虫技术来获取原始的数据积累。大数据也就变成了体量‘大’。但是由于某些数据的敏感性导致可能不知不觉的就触犯到了法律。

直到今天因为某些创业公司没有直接的数据产生场景,依然只能通过爬虫来获取网络公开数据或非公开、甚至是个人征信数据。个人征信数据千万不要试图获取。忠告一句:个人数据保存50条以上即获刑。

大概三年前,彻底脱离了爬虫工程师的头衔转战了大数据开发。后来发现几家上热门的公司我都面试过、或者由于业务关系有过接触。现在看到相关的头条资讯,心里一阵后怕。

何谓爬虫

互联网早期的时候搜索引擎还不存在,只能手工整理录入网站目录。但是后来通过爬虫技术搜索引擎能够更快的获取到网络中的网页信息。通过一个URL获取到整站的网页数据构建索引,以便于用户进行查询。 某些爬虫对网站的压力是很大的。为了规范爬虫的采集,行业内通过robots协议来规范爬虫的采集。告知爬虫是哪些网页可以采集,哪些网页不可以采集。

但是当前的爬虫技术很少会有人提及robots协议,本人面试过的几十家公司均没有提及过robots协议是否了解。可能对于企业来说获取到数据才是正经事。

懵懂中进入爬虫开发只是想真正的开发爬虫系统,类似于百度爬虫、谷歌爬虫那样的爬虫。但是在实际工作中又完全不可能用到这些。可能只有对于搜索引擎来说爬虫还有一定的价值,其他的场景可能已经不没有爬虫生存的土壤了。

爬虫技术是否合法?

技术无罪,从上面得知爬虫技术本身肯定是合法的数据获取的技术手段。爬虫在正常的使用中如果遵守robots协议并且对对方服务器没有造成破坏的话。那么爬虫技术既是合法的技术手段。robots协议能够规定哪些爬虫可以获取网站数据,获取哪些网站的那些页面所以如果遵守robots协议的话,爬虫甚至能够受到网站所有者的欢迎。比如还有一个职位叫做SEO,既是专门为了优化爬虫光临、搜索引擎收录所存在的职位。

如果爬虫不遵守robots协议的话,甚至就完全不考虑robots协议的话。那么就会存在触犯法律的危险。存储、转卖网站禁止收录的内容肯定是会犯法的。个人征信信息就更不用说了。如果采集、存储等。即是犯罪。

最终

技术是为了更好的未来,不能为了当前的利益而放弃未来,触犯法律的事情给再大的利益也不要去做。

本文分享自微信公众号 - 指尖数虫(zhijianshuchong),作者:CainGao

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • nexus基础说明与环境配置

    使用maven,gradle等构建项目必定会用到nexus来搭建私服,Maven的公服与私服是非常重要的概念

    CainGao
  • ElasticSearch起源、发展与安装

    “ ElasticSearch是一个基于Lucene的搜索引擎,ElasticSearch同样是采用Java编写的。Lucene与ElasticSearch之间...

    CainGao
  • Apache Flink利用Maven对Scala与Java进行混编

    主要是因为作者在使用IDEA,maven做Flink开发的时候出现的问题。Flink作业在提交到生产环境集群的时候不要把Flink相关源码等打入jar包中,因为...

    CainGao
  • 如果你不知道做什么,那就学一门杂学吧

    多年以后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和S君相见的那个遥远的下午。那时的B公司,还是一个仅有6个人的小团队,Mac和显示器在桌上依次排开,...

    青南
  • 聊一聊数据获取和爬虫

    木东居士
  • 今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?

    2019 上半年,今日头条正式公布开始做搜索引擎。本来单纯的以为头条和微信一样,做的是垂直搜索或者站内搜,没想到做的是抓取全网内容的全新搜索引擎。

    数据森麟
  • Python 网络爬虫概述

    几乎每个网站都有一个名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就...

    Python知识大全
  • Python 爬虫学习一

    简单来说网络爬虫就是自动索引互联网上信息的一段程序,看起来像是一个搜索引擎「实际上网络爬虫就是搜索引擎的重要组成部分」,对于我们不做搜索引擎的人来说又为什么来学...

    keinYe
  • 网络爬虫的风险

    随着互联网的发展,网络爬虫也越来越多,爬虫本身是一种网络技术,所以爬虫不是违法的技术。如果使用爬虫技术去做违法项目,例如:色情,赌博等违法业务,一旦发现就会触碰...

    用户6172015
  • 大规模爬虫流程总结

    爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。...

    小莹莹

扫码关注云+社区

领取腾讯云代金券