专栏首页极客猴Python 爬虫入门

Python 爬虫入门

题图:by google from Instagram

想从零基础开始学习 Python,可以把爬虫可以作为切入点。利用爬虫将基础知识学起来。毕竟兴趣是最好的学习老师。我当初觉得爬取网站数据挺有趣,所以才靠开始学习 Python。

0 准备工作

俗话说:工欲善其事,必先利其器。在开启编程的征途之前,我们需要将工作环境搭建起来,免得后续学习收到困扰。

  • 安装 Python 环境 如果你的操作系统是 windows,需要到 Python 官网下载 exe 安装包, 然后一步步安装即可。目前建议使用 Python 3.x 版本,因为官方即将停止维护 Python 2.x 版本。而 Linux 和 Mac 系统自带 Python 环境,直接使用即可。
  • 安装 Pycharm Pycharm 是编写以及运行 Python 代码工具。安装包可以到 Pycharm 官网下载。目前 Pycharm 工具是要收费,不过有 30 天的体验期。如果过了体验期,可以到网上寻找破解。

1 基础知识

在写爬虫之前,我们需要了解下一些基础知识。可以这么说,爬虫原理其实是运用这些基础知识。

  • HTTP 基本原理 我们使用浏览器网页都是采用 HTTP 协议或者 HTTPS 协议。HTTPS 是 HTTP 协议的加密版。爬虫其实是在模拟浏览器发起 HTTP 请求以及接受 HTTP 请求的响应。所以需要了解 HTTP 请求的整个过程。
  • 网页知识 我们爬取到的数据基本上存在 HTTP 的响应体中。响应体通常是由 HTML 各种标签、CSS 样式以及 JavaScript 代码构成。我们要大概了解网页知识,才能向从中提取数据。

2 学习爬虫

如果你已经搞定前面两部分,那么是时候开始学习爬虫。学习爬虫需要一个循序渐进的过程。我公众号中有爬虫相关文章,内容从基础到高级。另外,文章内容是边理论边实战。你可以阅读文章内容进行学习。如果遇到什么问题,可以在后台给我留言。如果问得人很多,我会专门做一期文章进行讲解。

如果你想获得文章中实战的源代码,可以点击对应文章中【阅读文章】来获取。学爬虫之道

详解 python3 urllib

Python 正则表达式

内容提取神器 beautiful Soup 的用法

爬虫实战一:爬取当当网所有 Python 书籍

Python 多进程与多线程

详解 Requests 库的用法

“干将莫邪” —— Xpath 与 lxml 库

爬虫实战二:爬取电影天堂的最新电影

学会运用爬虫框架 Scrapy (一)

学会运用爬虫框架 Scrapy (二)

学会运用爬虫框架 Scrapy (三)

学会运用爬虫框架 Scrapy (四) —— 高效下载图片

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

爬虫与反爬虫的博弈

Scrapy 框架插件之 IP 免费代理池

我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?

持续更新中……

本文分享自微信公众号 - 极客猴(Geek_monkey),作者:猴哥

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 爬虫系列的总结

    时光荏苒,四个月时间如流沙般从手心中流逝。这四个月自己算是收获颇多。因为在张哥的影响下,自己渐渐喜欢上写作。自己将所学的爬虫知识、学习心得以及如何学习分享出来。...

    猴哥yuri
  • 爬虫与反爬虫的博弈

    近来这两三个月,我陆续将自己学到的爬虫技术分享出来。以标准网络库 urllib 的用法起笔,接着介绍各种内容提供工具,再到后续的 scrapy 爬虫框架系列。我...

    猴哥yuri
  • 学会运用爬虫框架 Scrapy (五) —— 部署爬虫

    本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd...

    猴哥yuri
  • Python网络爬虫工程师需要掌握的核心技术

    为了让具备Python基础的人群适合岗位的需求,小编推出了一门全面的、系统的、简易的Python网络爬虫入门级课程,不仅讲解了学习网络爬虫必备的基础知识,而且加...

    python学习教程
  • 为了让大家更好地学习python爬虫,我们做了一个“靶子”

    很多学习 python 的同学应该都听说过“网络爬虫”的概念,也可能听说过用 python 写网络爬虫很方便。

    Crossin先生
  • RPA机器人和爬虫的区别,他们的边界在哪里?

    2019年越来越的企业关注到RPA,也有很多企业开始投入到RPA实施服务商的行业里面。RPA的热度之高,说是空前绝后可能有点夸张,但是说火到极致一点都没有错,R...

    RPA小葵
  • 听说你好不容易写了个爬虫,结果没抓几个就被封了?

    在这个数据驱动的时代,仿佛只要掌握了大数据,就对时代潮流和风向预测有了更令人信服的发言权。

    一墨编程学习
  • 18.7.3日报

    1,增加渲染层的模糊显示。这本来是为了学习chromium的原版cc的快速 光栅化而写的。但现在发现貌似性能并没啥大提升。

    龙泉寺扫地僧
  • 爬虫系列(1)第一步肯定是先介绍介绍爬虫。

    网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,比如:如果响应...

    小Gy
  • Python神技能 | 使用爬虫获取汽车之家全车型数据

    最近想在工作相关的项目上做技术改进,需要全而准的车型数据,寻寻觅觅而不得,所以就只能自己动手丰衣足食,到网上获(窃)得(取)数据了。

    马哥linux运维

扫码关注云+社区

领取腾讯云代金券