首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

超值!零基础Python爬虫速成教程!戳我,额外送3个实战项目!

前两天,有个小伙伴问了小编这样一个问题:Python可以爬到视频网站上vip才能看到的视频吗?听到这个问题,你是什么反应?我当时的内心:开玩笑,还有Python爬不到的东西吗?

最近,春运抢票大幕已经拉开,面对总是填不对的验证码,大家都感到很头疼,奇葩到你想不到的图片,是不是已经击败了你?好好好,我知道作为程序员的你,不会这么轻易就被击倒的,Python各种脚本的抢票源码手到擒来,哈哈哈~

其实,Python能做的不仅仅是抢票哦,今天小编就给大家总结了一些Python爬取各种东西的案例,让你看看Python到底有多强大,而且小编还给大家准备了源码或者是项目地址哦,是不是对我的爱又多了几分。

大家遇到啥问题都会在里面交流!而且分享零基础入门料资料web开发 爬虫资料一整套!是个非常好的学习交流地方!也有程序员大神给大家热心解答各种问题!很快满员了。欲进从速哦!各种PDF等你来下载!全部都是共享的哦!只为帮助大家快速入门,所以小编在等你们过来一起交流学习呢!

既然要在网络上爬取资源,首先要了解下基本的爬虫工作原理。

爬虫是怎么工作的?

想象你是一只蜘蛛,现在你被放到了互联“网”上。那么,你需要把所有的网页都看一遍。怎么办呢?没问题呀,你就随便从某个地方开始,比如说人民日报的首页,这个叫initial pages,用$表示吧。

在人民日报的首页,你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了,这样你就已经爬完了俩页面(首页和国内新闻)!暂且不用管爬下来的页面怎么处理的,你就想象你把这个页面完完整整抄成了个html放到了你身上。

突然你发现, 在国内新闻这个页面上,有一个链接链回“首页”。作为一只聪明的蜘蛛,你肯定知道你不用爬回去的吧,因为你已经看过了啊。所以,你需要用你的脑子,存下你已经看过的页面地址。这样,每次看到一个可能需要爬的新链接,你就先查查你脑子里是不是已经去过这个页面地址。如果去过,那就别去了。

1 ) 理论上如果所有的页面可以从initial page达到的话,那么可以证明你一定可以爬完所有的网页。

2 ) 基本的http抓取工具,scrapy

3 ) 如果需要大规模网页抓取,你需要学习分布式爬虫的概念。

4 ) rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

5 ) 后续处理,网页析取 ( grangier/python-goose · GitHub),存储(Mongodb)

都是小编一个一个收集整理的哦~

当当当,如何领~~~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180115A0R7FW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券