程序员写了个爬虫,看见抓回来的数据蒙住了,我差点笑出猪叫

想必有部分程序员也写过一些爬虫程序吧,不论是java语言还是php语言还是python等,都可以轻松实现,用php一行代码就可以抓取一个网页,不过后续要处理的细节还是蛮多,各种去噪处理什么的,另外还要注意的一点就是要遵循一定的规则,有的网站是不希望被抓取的,在网站的根目录下会有一个robot.txt之类的文件,爬虫要遵守这个规则,如果不遵守这个规则就算是比较流氓的做法了,近期一个程序员就给我们分享了他的一个遭遇。

这名程序员写了一个爬虫程序,他写的这个程序可能就没有遵守爬虫规则,他试图去抓取对方的网站后却抓来一行文字(傻逼,你爬个锤子!),看到这行文字后令他哭笑不得,他感觉对方是在挑衅,这名程序员就发出如下的感慨:“对爬虫能不能友好点,这么挑衅,就得搞死你,尊严问题,不是数据的问题了,都是开发,何必呢”,针对这名程序员网友的这种情况,让我们一起看看其他网友们都是怎么看待的吧!

如果有对大数据感兴趣程序员,可来我们的大数据交流扣qun哦:87672,3141里面免费送大数据的系统教程噢! 小编也是一名从事了5年的数据算法工程师,花了近两个月整理了一份较适合当下学习的干货,以及我这5年的工作经验,分享给每一位想学大数据的小伙伴,这里是大数据学习者聚集地,欢迎初学和进阶中的小伙伴。·

网友一:我觉得这种还好,我们识别到爬虫都是不封接口故意给错误数据的…………

网友二:可以幽默一点嘛

网友三:死循环请求搞奔他

网友回复网友三:你以为人家傻么?你根本就到不了应用服务器就被拦了

网友四:这很容易得罪别人,小心被攻击

网友五:这种是常见的手段了

网友六:分布式爬虫来一套

网友七:哈哈哈,DDOS他

一般的做法是不封接口,给错误数据,不过楼主的情况,给的数据具有挑衅的性质,更容易让对方攻击。其实按网友说的,弄一个搞笑风格的会好一点,这样不至于得罪对方,也委婉的拒绝了对方爬取数据。技术这个东西,道高一尺魔高一丈,看有没有必要,需要花多大的成本看具体情况了,攻和防都是无上限的。如果得罪一个高手,估计就真的与他们进行一次技术较量一下了。不过这个回复挑衅一点,倒也挺有意思的,既然敢这么说,想必也有一定的技术实力可以防备的。

我想大部分人遇到了这种情况都会笑吧,遇到被拒绝抓取的情况是挺多,不过来这么一句话的就感觉挺逗的,不免让人看了一愣。

通过这个案例,我们也不难得出这样的结论,在写爬虫的时候也是需要讲究一点规则的,比如要遵守robot.txt,还有是要控制访问频次什么的,比如对方的服务器比较弱,访问的过于频繁,势必对对方的网站造成影响,这样就不是很友好了,另外,作为网站方,如果发现有不遵守规则的爬虫过来抓数据,就给一个反馈就好了,不要反馈带有挑衅的语言,如果碰上一个气不过的人,可能会真盯上网站了,这样的事情,双方都有需要注意的地方,双方都是开发人员嘛,要正确处理这样的事情,保持友好共处。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181108A1XJK700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券