首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫-1

以后有时间会陆续给大家介绍一些关于爬虫的知识,也会分享一些源码供大家参考。

为什么要研究爬虫呢?

大数据时代的到来是互联网发展的基石,而互联网又是人工智能的基础,以后任何一个科技时代在我看来都离不开有价值的数据做为依托的,因此对于一个没有自己数据的个人或者企业来说,拿别人的数据也是无可厚非的事,当然这并不违法,也不违反道德。

最近爬去了一些政府的公开数据,以及一些博客数据,当然主要研究还是如何越过验证去爬去数据,例如淘宝的滑块验证,其他验证码等。

既然写爬虫,用那种语言无所谓,当然业界还是python相对比较多,因为java可能需要写50行代码解决,而py只需要5行代码就ok了,确实如此,当然也可以使用其它的c ,c# ,php等,我这里仅仅介绍java和python如何爬取数据的,

那么开始贴代码了:

以下为py模拟百度输入:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180112G0BCJ200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券