【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

在上一篇文章中,我们已经学会了在腾讯云服务器上搭建Python环境了,假设你已经在腾讯云服务器上搭建好了Python环境,我们将进入下一步:搭建Python爬虫环境。

一直在终端编写Python爬虫是不现实的,除非你在学习阶段,当我们要正式开始编写爬虫的时候我们理所应当的需要一个爬虫环境了。

第一部分:搭建爬虫环境

考虑到学习、使用便捷,我们将使用Sublime Text3开发爬虫:https://www.sublimetext.com/3 ,进入Sublime Text3官网,按照你的系统下载相应的版本,我这里下载的是Windows 64位的。

下载好之后,安装setup

Next

选择安装目录,点击next

勾选上:Add to explorer contect menu,点击next,最后点击Installer/Finish,安装完成。安装完成之后到你之前配置的安装目录打开Sublime Text3,你也可以复制一个快捷方式到桌面方便以后使用。

现在你就可以使用Sublime Text来编写Python了,如若有什么不懂的地方可以访问Sublime Text的官网查看文档。编写完Python代码之后,F7运行Python脚本,第一次运行的时候会出现以下界面,选择的一个行的Python即可。

第二部分:学会安装Python库

Python适合做爬虫是因为:有无数的开源作者无私的在Python开源社区做贡献,强大的Python库为我们提供了很多便捷的操作。有三种方法安装Python库,具体方法可以访问:http://blog.csdn.net/jerry_1126/article/details/46574045

Python中绝大部分的库都可以使用pip进行安装,pip也是最简单的安装方法,使用pip安装第三方库只需要使用命令:pip install + 库名,比如我需要安装一个叫bs4的库,我只需要在终端执行pip install bs4

出现:Successfully collected packages:则表示安装成功。

第三部分:你不得不知的Python库

在编写爬虫的时候我们可能需要以下一些比较常用的库,这里我们做一个简单的介绍,方便后续的使用。

1、Requests

Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner

安装命令:pip install resquests

2、Beautifulsoup4

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序

安装命令:pip install bs4

3、Lxml

python lxml包用于解析XML和html文件,可以使用xpath和css定位元素

安装方法:pip install lxml

第四部分:寻找你需要的Python库

当以上库不能满足你需求的时候,你就需要学会自己寻找Python库了。首先访问一个git项目:https://github.com/vinta/awesome-python

在这个项目中,作者把所有的Python资源包括库资源等分成了几十个大类:数据挖掘、数据可视化、日期和时间处理、数据库相关……等等,在每个大类中归类了该类下的所有资源,并且该资源的首页有各个大类的索引。

在这个大背景之下,假设我现在想找一个Python操作MongoDB的库,我们就首先点击最上面的索引:Database Drivers直接跳转到数据库相关库的地方。

跳转之后,如下界面,我们就可以直接寻找到我们需要的库了。

当然,因为所有的资源都在同一个页面,所以我们同时可以使用浏览器自带的搜索功能,在Chrome下是Ctrl+F12,在该页面直接搜我们需要的某个功能关键词,比如:MongoDB,

当然,这样搜索出来的结果可能不仅仅是一条,就需要你自己排查以下哪一个才是你真正那个需要的库资源了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境

Python操作Redis - 云爬虫初探

腾讯云主机Python3环境安装PySpider爬虫框架过程

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Golang语言社区

Golang 之协程详解

  对于 进程、线程,都是有内核进行调度,有 CPU 时间片的概念,进行 抢占式调度(有多种调度算法)

1495
来自专栏Golang语言社区

Golang语言并发技术详解

有人把Go比作21世纪的C语言,第一是因为Go语言设计简单,第二,21世纪最重要的就是并行程序设计,而Go从语言层面就支持了并行。

5425
来自专栏喵了个咪的博客空间

phalcon-入门篇6(控制器)

#phalcon-入门篇6(控制器)# ? 本教程基于phalcon2.0.9版本 ##前言## 先在这里感谢各位phalcon技术爱好者,我们提供这样一个优秀...

3086
来自专栏Golang语言社区

go语言 runtime

golang写在前面 golang由于其能够支持大量并发运算的特性而广泛地应用于云计算领域。 本文对golang的底层进行一个简单的分析与说明。 golang ...

3415
来自专栏xingoo, 一个梦想做发明家的程序员

图解NodeJS【基于事件、回调的单线程高性能服务器】原理

刚开始了解Node感觉很吊,各种说高性能,可是一直不理解为什么单线程会比多线程快?为什么异步IO比非阻塞IO快?因此,本篇在阅读相关书籍后,根据自己的理解,整...

1967
来自专栏Java帮帮-微信公众号-技术文章全总结

同步与异步/阻塞与非阻塞/回调【面试+工作】

  打个比方,比如我们去购物,如果你去商场实体店买一台空调,当你到了商场看中了一款空调,你就想售货员下单。售货员去仓库帮你调配物品。这天你热的实在不行了。就催着...

762
来自专栏铭毅天下

刨根问底 | Elasticsearch 5.X集群多节点角色配置深入详解

1、问题引出 ES5.X节点类型多了ingest节点类型。 针对3个节点、5个节点或更多节点的集群,如何配置节点角色才能使得系统性能最优呢? ? 2、...

4488
来自专栏欧阳大哥的轮子

iOS应用程序的脱壳实现原理浅析

对于诸多逆向爱好者来说,给一个app脱壳是一项必做的事情。基于安全性的考虑,苹果对上架到appstore的应用都会进行加密处理,所以如果直接逆向一个从appst...

783
来自专栏ytkah

dedecms自增标签[field:global.autoindex/]的运用

  用bootstrap建站时用到幻灯片切换模块,里面有个active(下面代码中的data-slide-to="0"),其余的按顺序递增(1,2),如果用de...

3004
来自专栏IT大咖说

饿了么资深Android工程师带你领略Kotlin协程的力量

内容来源:2018 年 6 月 28 日,饿了么资深Android工程师张涛在“droidcon上海2018安卓技术大会”进行《领略kotlin协程的力量》演讲...

2764

扫码关注云+社区