小白学 Scrapy 爬虫系列之一:准备实验机器

爬虫如今是一个非常热门的技术领域,不仅因为它是获取大数据的一种有效方式,还在于它入门还是比较简单、快速,小白学完比较容易有成就感,而且可以「学以致用」。

本系列文章中,笔者将带领大家从零开始学习爬虫编写。在跟随笔者一起实操之前,要求大家有一定的 Python 基础。之前没接触过的同学也不用担心,Python 号称是世界上最容易学的语言,如果之前没有了解,可以先看看Think Python 2这本入门书。这是 Python 社区爱好者共同翻译的一本开源教材,对于零基础的同学来说很有价值。

第一天的任务

本系列教程一共八篇,将持续在腾讯云技术社区更新。前七篇介绍从机器配置到爬虫运行的全过程,最后一篇分享动态页面爬取、反爬虫等进阶建议。

第一天的任务,也就是本文的主题,即 完成爬虫项目的机器配置。

机器及操作系统

在学习爬虫的过程中,可能会碰到由于机器原因导致的软件安装错误,尤其是 Windows 系统。因此,本教程建议大家使用统一的机器机型和操作系统。

确保这个要求的绝佳方式,就是使用腾讯云等云计算平台提供的云服务器。这些都是标准化的机器,每台机器的初始配置都相同,而且可以选择使用一模一样的操作系统,如我们计划使用的 Ubuntu 14.04。

另外,由于直接使用云服务器,在爬虫开发完成之后,就可以直接投入实际使用,做到 7x24 小时持续运行。

因此,笔者建议大家使用腾讯云提供的云服务器。如果你是新注册用户的话,还可以申请免费30天使用。如果已经是注册用户,建议选择1核CPU1GB内存的实验机器,尽量降低实验成本。这也是本系列教程所使用的机器。

购买服务器之后,建议先按下文进行初始安全配置:

如何正确配置 Ubuntu 14.04 服务器?

基础软件

SSH 登录实验服务器之后,我们需要安装以下软件依赖,才能继续后面的任务:

  • Python 3.x
  • git
  • pip
  • virtualenv

安装过程也非常直接明了:

sduo apt-get install python3 git python3-pip

然后再使用 pip 命令安装 virtualenv:

pip3 install virutalenv

在 Ubuntu 系统下,这些操作完成的都特别快,而且基本不会出错。Windows 系统下的过程会稍微复杂一些。

后续计划

完成上面的配置之后,爬虫项目需要的实验机器就准备好了。明天,我们将介绍具体实验环境准备工作,主要包括安装PostgreSQL 数据库和 Scrapy 爬虫库等。

本系列教程的完整内容预计包括:

  • E01:机器配置
  • E02:环境配置
  • E03:创建 Scrapy 项目
  • E04:编写爬虫代码
  • E05:接入 SQLAlchemy
  • E06:编写数据处理管道
  • E07:运行爬虫的几种方式
  • E08:延伸阅读,如何避免反爬等

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏轮子工厂

十点总结,为何 Linux 如此深得人心

Linux 过去主要作为服务器运行,但经过几年的发展,其用户界面有了很大的改善。如今,Linux 已经成为美观易用,用户友好的桌面操作系统。在某些方面,Linu...

943
来自专栏华章科技

被称为“开发者神器”的GitHub,到底该怎么用?

导读:GitHub是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,研究开源软件中存在的问题。开发人员每天都要在工作中使用GitHub或其他基于Git...

872
来自专栏CDA数据分析师

敲黑板!你和GitHub高手就差这三条规则······

本文不会介绍如何创建 GitHub 简历或如何使用终端提交 Git。我将解释每天使用 Git 和 GitHub 的重要性,尤其对于正在学习写代码的人。我还将分享...

982
来自专栏Golang语言社区

Bowery为什么放弃Node.js,转向Go?

英文来自:Moving from Node.js to Go at Bowery   Go 语言自从面世就受到了很多开发者的欢迎,越来越多的项目基于 Go 语言...

5418
来自专栏大数据杂谈

被称为“开发者神器”的GitHub,到底该怎么用?

导读:GitHub是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,研究开源软件中存在的问题。开发人员每天都要在工作中使用GitHub或其他基于Git...

773
来自专栏皮振伟的专栏

[network][wenbench]一款不错的HTTP压力测试工具

前言: 作者曾经接到一个需求,会在一个相对较短的时间内,会有大量的http请求。 代码写完之后,需要压力测试一下。在网上无意间看到过webbench这个工具,于...

2788
来自专栏IT米粉

weui-react项目实战新心得

weui-react简介 weui是微信官方制作的一个基础样式UI库,打造与原生微信同样的视觉和交互体验,整个UI库包括网页版和小程序版,网页版包括传统的jav...

2824
来自专栏哲学驱动设计

Rafy 框架 - 插件级别的扩展点

本章说明如何使用额外的插件(如客户化插件)对另一插件(如产品插件)进行扩展。 使用场景 在 产品线工程 中,项目的研发分为领域工程和应用工程。这个过程中会需要对...

1807
来自专栏知晓程序

小程序管理员的这 9 个权限,你真的都了解吗?| 小程序问答 #54

在第 30 期「小程序问答」文章中,我们介绍了新推出的小程序后台「成员管理」功能。

935
来自专栏吴伟祥

Linux kernel Overview 原

Linux内核最初只是由芬兰人李纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。

986

扫码关注云+社区