Python 爬虫入门

题图:by google from Instagram

想从零基础开始学习 Python,可以把爬虫可以作为切入点。利用爬虫将基础知识学起来。毕竟兴趣是最好的学习老师。我当初觉得爬取网站数据挺有趣,所以才靠开始学习 Python。

0 准备工作

俗话说:工欲善其事,必先利其器。在开启编程的征途之前,我们需要将工作环境搭建起来,免得后续学习收到困扰。

  • 安装 Python 环境 如果你的操作系统是 windows,需要到 Python 官网下载 exe 安装包, 然后一步步安装即可。目前建议使用 Python 3.x 版本,因为官方即将停止维护 Python 2.x 版本。而 Linux 和 Mac 系统自带 Python 环境,直接使用即可。
  • 安装 Pycharm Pycharm 是编写以及运行 Python 代码工具。安装包可以到 Pycharm 官网下载。目前 Pycharm 工具是要收费,不过有 30 天的体验期。如果过了体验期,可以到网上寻找破解。

1 基础知识

在写爬虫之前,我们需要了解下一些基础知识。可以这么说,爬虫原理其实是运用这些基础知识。

  • HTTP 基本原理 我们使用浏览器网页都是采用 HTTP 协议或者 HTTPS 协议。HTTPS 是 HTTP 协议的加密版。爬虫其实是在模拟浏览器发起 HTTP 请求以及接受 HTTP 请求的响应。所以需要了解 HTTP 请求的整个过程。
  • 网页知识 我们爬取到的数据基本上存在 HTTP 的响应体中。响应体通常是由 HTML 各种标签、CSS 样式以及 JavaScript 代码构成。我们要大概了解网页知识,才能向从中提取数据。

2 学习爬虫

如果你已经搞定前面两部分,那么是时候开始学习爬虫。学习爬虫需要一个循序渐进的过程。我公众号中有爬虫相关文章,内容从基础到高级。另外,文章内容是边理论边实战。你可以阅读文章内容进行学习。如果遇到什么问题,可以在后台给我留言。如果问得人很多,我会专门做一期文章进行讲解。

如果你想获得文章中实战的源代码,可以点击对应文章中【阅读文章】来获取。学爬虫之道

详解 python3 urllib

Python 正则表达式

内容提取神器 beautiful Soup 的用法

爬虫实战一:爬取当当网所有 Python 书籍

Python 多进程与多线程

详解 Requests 库的用法

“干将莫邪” —— Xpath 与 lxml 库

爬虫实战二:爬取电影天堂的最新电影

学会运用爬虫框架 Scrapy (一)

学会运用爬虫框架 Scrapy (二)

学会运用爬虫框架 Scrapy (三)

学会运用爬虫框架 Scrapy (四) —— 高效下载图片

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

爬虫与反爬虫的博弈

Scrapy 框架插件之 IP 免费代理池

我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?

持续更新中……

原文发布于微信公众号 - 极客猴(Geek_monkey)

原文发表时间:2018-06-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏pangguoming

最火的Android开源项目整理

一、代码库 1、from  代码家 整理比较好的源码连接 ***************************************************...

8374
来自专栏coding

swoole框架-swoft实现程圣母与云天明对话功能启动ws服务创建http服务的聊天控制器创建视图文件创建ws控制器结果演示

当万有引力号启动广播按钮,向宇宙发送三体星的坐标时,地球已经失去了任何侵略价值。三体人将所有在地球的资源全部撤走,但在临别时,安排了程圣母与云天明的远程会话。接...

2032
来自专栏极客猴

盘点一些网站的反爬虫机制

因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。

2.4K3
来自专栏腾讯移动品质中心TMQ的专栏

【浅谈Chromium中的设计模式(一)】——Chromium中模块分层和进程模型

“EP”(中文:工程生产力)是目前项目中提升研发能力的一个很重要的衡量指标。笔者重点学习了Chromium产品是如何从代码和设计层面来保证快速高效的工程生产力。...

5138
来自专栏杨建荣的学习笔记

Oracle 12C打补丁的简单尝试(r10笔记第55天)

最近在服务器盘点的时候,发现测试环境还是值得整合一下,因为服务器资源老旧,整体配置不高,服务器资源使用率不高,业务要求不高,多个实例分散在多台服务器上,要考虑灾...

3798
来自专栏lestat's blog

树莓派玩耍记

这篇文章是自己入手树莓派之后的一些使用记录 前些天看 v2ex 上有人讨论树莓派,于是出于好奇在淘宝上淘了一只树莓派来玩玩 体积超级小… ? 一个板子,...

3735
来自专栏禹都一只猫博客

Scrapy实战:爬取一个百度权重为7的化妆品站点

39412
来自专栏blackpiglet

Linux 屏幕取词解决方法:Chrome 插件

  我的工作用电脑的桌面环境是 Ubuntu 17.10,作为一个 Linux 用户,一直困扰我的一个问题是没有找到一个比较理想的可以取词划词的英语词典,之前我...

1923
来自专栏CDN及云技术分享

原来你是这样的http2

目前HTTP/2.0(简称h2)已经在广泛使用(截止2018年8月根据Alexa流行度排名的头部1千万网站中,h2占比约29%,https://w3techs....

72013
来自专栏张善友的专栏

zookeeper 分布式锁服务

分布式锁服务在大家的项目中或许用的不多,因为大家都把排他放在数据库那一层来挡。当大量的行锁、表锁、事务充斥着数据库的时候。一般web应用很多的瓶颈都在数据库上,...

2208

扫码关注云+社区

领取腾讯云代金券