Python爬虫小站介绍

大家好,欢迎来到Python爬虫小站,这是一个记录博主爬虫技术成长的地方。在这里你可以 和数据交流,和技术奋飞,相信你在这里可以收获一些乐趣。。。

爬虫资料

byte-of-python

Python 核心编程

Python基础教程

廖雪峰Python3

Python基础-菜鸟教程

Python基础-W3cschool

Python3网络爬虫开发实战-崔庆才

爬虫技术

(1)学会基本的Python语法知识(可以参考上面的爬虫资料);

(2)学习Python爬虫常用到的几个重要内置库requests, http等,用于下载网页;

(3)学习正则(re)表达式的基础用法、BeautifulSoup(bs4)、Xpath(lxml)等网页解析工具;

(4)尝试一些简单网站的爬取(如赶集,58同城),了解爬取数据的过程;

(5)了解爬虫的一些反爬机制(header,robot,时间间隔,代理ip,隐含字段等);

(6)学会一些特殊网站的爬取,解决登录、Cookie、session,js,动态网页等问题;

(7)了解爬虫与数据库的结合,如何将爬取的数据进行储存;

(8)学会应用Python的多线程、多进程进行爬取数据来提高爬虫效率;

(9)学习爬虫的一些框架(如Scrapy、PySpider等);

(10)学习分布式爬虫(主要是针对数据量庞大的爬取需求);

(11)学会运用ocr识别验证码加速爬取的过程;

(12) 暂时还没想到......,所以就更不会有(13)了。

小站介绍

博主会从基本的爬虫知识开始介绍,教小白们一步步成长(入坑),最后可以对爬虫知识熟练运用。本套教程分为基础篇,进阶篇,实战篇,欢迎大家在公众号内留言与我互动交流学习。

与我交流

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180608G0OMS800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券