前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python 爬虫入门

Python 爬虫入门

作者头像
猴哥yuri
发布2018-08-16 16:53:18
6740
发布2018-08-16 16:53:18
举报
文章被收录于专栏:极客猴极客猴

题图:by google from Instagram

想从零基础开始学习 Python,可以把爬虫可以作为切入点。利用爬虫将基础知识学起来。毕竟兴趣是最好的学习老师。我当初觉得爬取网站数据挺有趣,所以才靠开始学习 Python。

0 准备工作

俗话说:工欲善其事,必先利其器。在开启编程的征途之前,我们需要将工作环境搭建起来,免得后续学习收到困扰。

  • 安装 Python 环境 如果你的操作系统是 windows,需要到 Python 官网下载 exe 安装包, 然后一步步安装即可。目前建议使用 Python 3.x 版本,因为官方即将停止维护 Python 2.x 版本。而 Linux 和 Mac 系统自带 Python 环境,直接使用即可。
  • 安装 Pycharm Pycharm 是编写以及运行 Python 代码工具。安装包可以到 Pycharm 官网下载。目前 Pycharm 工具是要收费,不过有 30 天的体验期。如果过了体验期,可以到网上寻找破解。

1 基础知识

在写爬虫之前,我们需要了解下一些基础知识。可以这么说,爬虫原理其实是运用这些基础知识。

  • HTTP 基本原理 我们使用浏览器网页都是采用 HTTP 协议或者 HTTPS 协议。HTTPS 是 HTTP 协议的加密版。爬虫其实是在模拟浏览器发起 HTTP 请求以及接受 HTTP 请求的响应。所以需要了解 HTTP 请求的整个过程。
  • 网页知识 我们爬取到的数据基本上存在 HTTP 的响应体中。响应体通常是由 HTML 各种标签、CSS 样式以及 JavaScript 代码构成。我们要大概了解网页知识,才能向从中提取数据。

2 学习爬虫

如果你已经搞定前面两部分,那么是时候开始学习爬虫。学习爬虫需要一个循序渐进的过程。我公众号中有爬虫相关文章,内容从基础到高级。另外,文章内容是边理论边实战。你可以阅读文章内容进行学习。如果遇到什么问题,可以在后台给我留言。如果问得人很多,我会专门做一期文章进行讲解。

如果你想获得文章中实战的源代码,可以点击对应文章中【阅读文章】来获取。学爬虫之道

详解 python3 urllib

Python 正则表达式

内容提取神器 beautiful Soup 的用法

爬虫实战一:爬取当当网所有 Python 书籍

Python 多进程与多线程

详解 Requests 库的用法

“干将莫邪” —— Xpath 与 lxml 库

爬虫实战二:爬取电影天堂的最新电影

学会运用爬虫框架 Scrapy (一)

学会运用爬虫框架 Scrapy (二)

学会运用爬虫框架 Scrapy (三)

学会运用爬虫框架 Scrapy (四) —— 高效下载图片

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

爬虫与反爬虫的博弈

Scrapy 框架插件之 IP 免费代理池

我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?

持续更新中……

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 极客猴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0 准备工作
  • 1 基础知识
  • 2 学习爬虫
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档