Python爬虫实战入门一:工具准备

一、基础知识

使用Python编写爬虫,当然至少得了解Python基本的语法,了解:

  • 基本数据结构
  • 数据类型
  • 控制流
  • 函数的使用
  • 模块的使用

不需要过多过深的Python知识,仅此而已。 个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、

Python官方的《Python教程》

http://python.usyiyi.cn/translate/python_352/tutorial/index.html 如果需要PDF版Python入门资料,可以关注回复关键字:python入门资料

二、开发环境、

  • 操作系统:Windows 7
  • Python版本:Python 3.4
  • 代码编辑运行环境:个人推荐PyCharm社区版,当然,Python自带的IDLE也行,Notepad++亦可,只要自己使用得习惯。

三、第三方依赖库

  • requests:一个方便、简洁、高效且人性化的HTTP请求库
  • BeautifulSoup:HTML解析库
  • pymongo:MongoDB的Python封装模块
  • selenium:一个Web自动化测试框架,用于模拟登录和获取JS动态数据
  • pytesseract:一个OCR识别模块,用于验证码识别
  • Pillow:Python图像处理模块

四、第三方库安装:

上面列出的第三方模块大多可以通过pip install ××的方式直接安装,部分模块安装方式不一样,下面一一演示: requests pip install requests

BeautifulSoup pip install bs4

pymongo pip install pymongo

selenium pip install selenium

Pillow 1、打开http://www.lfd.uci.edu/~gohlke/pythonlibs/ 2、搜索找到“pillow” 3、根据自己系统的版本选择对应的下载包

4、安装 pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whl

pytesseract 1、pip install pytesseract

2、安装tesseract 下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

这样,我们的准备工作就基本完成,如果有另外的需求,在实战中再进行安装,接下来就可以实战Python爬虫了。

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2017-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张戈的专栏

分享几个WordPress本地缓存gravatar评论头像的方案

由于 GFW 的关系,使用 gravatar 的博客评论头像经常会出现“图裂特效”,这肯定是很多站长小伙伴都遇到过的困扰。网络上也很多教程,通过更换 avata...

3045
来自专栏张善友的专栏

在ASP.NET Core中使用brotli压缩

1975
来自专栏Material Design组件

Human Interface Guidelines — Requesting Permission

1176
来自专栏个人分享

Spark性能测试报告与调优参数

1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().m...

621
来自专栏ImportSource

NoSQL 一致性[详解]更新一致性

翻译内容: NoSQL Distilled 第五章 Consistency 作者简介: ? 本节摘要: 一致性向来是分布式的一大问...

3447
来自专栏jouypub

十分钟检查Linux服务器性能

你是否遇到过:服务器负载飙升;服务被已经挂起,接口长时间没响应;服务刚重启,过一会又无法访问等等。这时下面这几条命令就可以尽快的帮你快速定位问题,找出问题的根源

610
来自专栏zingpLiu

Linux内存信息查看——free命令

  free 命令可以显示系统已用和空闲的内存情况。包括物理内存、交互区内存(swap)和内核缓冲区内存(buffer)。共享内存将被忽略。在Linux系统监控...

662
来自专栏Java Edge

网站的伸缩性架构一、网站架构的伸缩性设计二、应用服务器集群的伸缩性设计三、分布式缓存集群的伸缩性设计四、数据存储服务器集群的伸缩性设计

3559
来自专栏腾讯技术工程官方号的专栏

腾讯技术课|基于Elastic Stack 搭建日志分析平台

? 为了让读者们可以更好的理解「如何基于Elastic Stack 搭建日志分析平台」,腾讯技术工程公众号特别邀请腾讯基础架构部的陈曦工程师通过语音录播分享的...

2142
来自专栏FreeBuf

血淋林的例子告诉你,为什么防“上传漏洞”要用白名单

一般来说,当你在写文件上传功能的代码时,你都需要使用”白名单”或“黑名单”来检查并限制用户上传文件的扩展名。 当我阅读了@Idionmarcil的【这篇文章】之...

2228

扫码关注云+社区