前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >萝卜爆肝Python爬虫学习路线

萝卜爆肝Python爬虫学习路线

作者头像
周萝卜
发布2021-12-10 10:26:52
6920
发布2021-12-10 10:26:52
举报
文章被收录于专栏:萝卜大杂烩

最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能、需要如何学起!

当然了,由于个人水平有限,文章中不免有不准确的地方,欢迎斧正~

学习路线大纲

图片有点糊,没有办法,公众号不能上传原图,需要原图的小伙伴在文末获取

Python 基础

由于本篇主要介绍 Python 爬虫学习路线,所以对于 Python 基础知识,仅仅提取了最为基础的部分,应付基础爬虫完全够用了,当然,对于底层基础,肯定是掌握的越多、越牢固越好~

  • 环境搭建
    • Python安装
    • 开发工具 - PyCharm,VS Code
  • 变量
    • 定义变量
    • 命名规则
    • 基本数据类型
  • 基本数据结构
    • 字符串
    • 列表
    • 字典
    • 集合
    • 元组
  • 流程控制
    • 条件
    • 循环
  • 函数
    • 调用函数
    • 定义函数
    • 函数参数
    • lambda 函数
  • 面向对象编程
    • 类和对象
    • 访问限制
    • 装饰器

数据采集与解析

  • HTTP 基本原理
    • URI 和 URL 统一资源定位符
    • HTTP&HTTPS 请求与响应
    • HTML 组成原理
  • WEB 基本原理
    • JavaScript&HTML&CSS
    • 节点树与节点
    • Web 加载原理
    • 静动态 Web 页面
  • Socket 库
    • 基于 socket 协议的爬虫
  • Requests 库
    • requests 库的使用
    • cookie 与 session
    • 模拟登录
    • 请求头模拟
    • IP 代理
  • 正则表达式
    • re 模块的使用
    • 基本字符串、数字等匹配规则
    • 贪婪与非贪婪匹配
  • Xpath
    • 执行原理
    • 节点操作
    • 元素操作

多种采集方式

  • 同步采集
    • requests
  • 异步采集
    • aiohttp
    • aiofiles
  • Selenium
    • 环境搭建 - webdriver
    • 元素选择 - (id,css,class,xpath)
    • 模拟登录
    • 隐藏 selenium 特征
  • AJAX
    • Ajax 原理
    • Ajax 请求与响应解析
  • Pyppeteer
    • 环境安装
    • 模拟点击
    • 执行 JS 代码

存储知识

  • 本地文件
    • os 库
    • open 文件
    • 读写 Excel
    • 读写 CSV
  • MySQL
    • 表结构设计
    • 同步/异步写入 MySQL
  • Redis
    • 读写操作
    • 基本数据类型与选择
  • MongoDB
    • 单一写入
    • 批量写入
  • 与 Pandas 结合
    • 存储成 Pandas 数据结构
    • Pandas 基本操作

中间人代理

  • Charles
    • 安装与配置
    • 数据拦截
    • 安卓模拟器
  • Mitmproxy
    • 脚本编写
    • 数据截取
    • 代理响应
  • HttpCanary
    • 基本使用

爬虫框架

  • Scrapy
    • 环境搭建
    • 组件拆解
    • 通用爬虫
    • 分布式爬虫 - (scrapy-redis 使用,scrapy-redis 调度器)
  • Crawley
  • Selenium
    • 分布式部署
  • PySpider

反爬虫知识

  • 信息校验型
    • 模拟登录
    • Cookie 机制
    • 用户代理
    • 签名验证机制
    • header 机制
  • 动态渲染型
    • 页面异步加载
  • 文本混淆型
    • 图文混淆 - 关键信息以图片形式给出
    • 字体反爬 - (反爬原理,编码破解)
  • 特征识别型
    • 访问频率限制 - (IP 代理池,搭建个人 IP 代理池)
    • Selenium 特征检测 - 隐藏 Selenium 特征
  • 验证码
    • 验证码原理
    • 图文验证码
    • 点选验证码
    • 滑动验证码
    • 其他变态验证码
  • JS 混淆
    • JS 逆向

多终端爬虫

  • WEB 采集
  • APP 采集
  • 小程序采集
  • 数据去重
  • 断点采集
  • 增量采集

以上就是整理的基础爬虫所需的学习路线,当然鉴于个人水平有限,难免有不足之处,还望不吝指教!

下面分享一些免费好用的学习资料,大家自选,还是那句话,资料在精不在多,在收藏夹里吃灰并不等于学会~

视频

  • 2020年Python爬虫全套课程(学完可做项目)
    • https://www.bilibili.com/video/BV1Yh411o7Sz
  • Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析
    • https://www.bilibili.com/video/BV12E411A7ZQ
  • 2021年最新Python爬虫教程+实战项目案例(最新录制)
    • https://www.bilibili.com/video/BV1i54y1h75W

网盘资料

  • 《Python 网络爬虫实战》
    • https://pan.baidu.com/s/1ZZ1G047X_gsd3Gq7boHKcw 提取码: h5fx
  • 《Python 网络数据采集》
    • 链接: https://pan.baidu.com/s/1yMguYZ61GaXcadYQ9_FpQA 提取码: vq8y
  • Python 分布式爬虫
    • 链接: https://pan.baidu.com/s/1EY_n6FTnzkA7ahHstUp2oQ 提取码: 73s8

在线网站

  • 廖雪峰官网 Python教程
    • https://www.liaoxuefeng.com/wiki/1016959663602400
  • 莫凡 Python
    • https://mofanpy.com/

相关法律法规

  • 遵守 Robots
  • 控制访问速率
  • 敏感信息不碰触
  • 国家安全大于天
  • 获取的数据不进行非法盈利
  • 其他违反法律法规的动作

基本上做到以上几点,我们的爬虫就是安全的,不要过度妖魔化爬虫,当然网络更不是法外之地,要做一个合格的遵纪守法好公民!

尾声

以上就是萝卜断断续续写了几天,结合个人经验,同时也参考了网上大量的视频、文章总结而成的 Python 爬虫学习路线,确实非常的不容易,如果大家觉得满意请务必点个 + 在看 支持下。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学习路线大纲
  • Python 基础
  • 数据采集与解析
  • 多种采集方式
  • 存储知识
  • 中间人代理
  • 爬虫框架
  • 反爬虫知识
  • 多终端爬虫
    • 视频
      • 网盘资料
        • 在线网站
        • 相关法律法规
        • 尾声
        相关产品与服务
        验证码
        腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档