爬虫-1

以后有时间会陆续给大家介绍一些关于爬虫的知识,也会分享一些源码供大家参考。

为什么要研究爬虫呢?

大数据时代的到来是互联网发展的基石,而互联网又是人工智能的基础,以后任何一个科技时代在我看来都离不开有价值的数据做为依托的,因此对于一个没有自己数据的个人或者企业来说,拿别人的数据也是无可厚非的事,当然这并不违法,也不违反道德。

最近爬去了一些政府的公开数据,以及一些博客数据,当然主要研究还是如何越过验证去爬去数据,例如淘宝的滑块验证,其他验证码等。

既然写爬虫,用那种语言无所谓,当然业界还是python相对比较多,因为java可能需要写50行代码解决,而py只需要5行代码就ok了,确实如此,当然也可以使用其它的c ,c# ,php等,我这里仅仅介绍java和python如何爬取数据的,

那么开始贴代码了:

以下为py模拟百度输入:

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180112G0BCJ200?refer=cp_1026

扫码关注云+社区