专栏首页程序员的碎碎念云上部署Python3爬虫--以腾讯云+Ubuntu为例

云上部署Python3爬虫--以腾讯云+Ubuntu为例

阅读文本大概需要 2 分钟。

提示


以鄙人在GitHub上的辣鸡代码为例, 其他Scrapy的项目操作类似, 本文同样适用于不使用云服务器的情形(排除掉前期准备部分即可).

前期准备


(也可以到腾讯云开发者实验室体验)

1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接

https://cloud.tencent.com/redirect.php?redirect=1010&cps_key=e042d9552c4c0be2cd377436ca42ee62

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后,使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码


git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖


1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

(https://blog.csdn.net/fireflychh/article/details/78195778)

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后 终端键入

# 安装
pip3 install virtualenv
# 创建虚拟环境
virtualenv spider-env
# 激活虚拟环境
source spider-env/bin/activate
# 退出
deactivate

3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

# 在JobCrawler/JobCrawler目录下
pip install -r requirements.txt

4. 安装MongoDB

参照以下连接安装 MongoDB Community Edition

(https://docs.mongodb.com/manual/administration/install-community/)

运行爬虫


终端cd到项目根目录, 键入

# -o job.csv为可选参数, 加入则输出到指定文件中
scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行


使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件 具体实现方式就交由你自己用搜索引擎探索啦


欢迎点击查看原文关注我的腾讯云社区账号

入门小白, 欢迎大家指出错误, 技术交流

今日作者: 光光同学_

不爱看电影的摄影师不是好的程序员

本文分享自微信公众号 - 程序员的碎碎念(gh_53e607dd4782)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用fastadmin部署环境总结

    安装前端和php依赖包时候,要提前准备好Git、Node.js、Composer和Bower环境

    benny
  • php常用函数(一)

    parse_url:函数的作用是解析一个URL并返回一个包含其URL组件的关联数组,错误时返回false。例: ? 页面显示效果如下: ? ran...

    benny
  • 前端面试题(一)

    答:== 表示相等即仅仅比较两边变量的数值是否相等;=== 表示恒等,首先比较两边的变量数据类型是否相等,其次比较两边的变量的数值是否相等。

    benny
  • web架构师工具

    github API文档 https://developer.github.com/v3/

    lilugirl
  • 网络基础 记一次HTTPS证书验证测试过程

    说明:采用https的服务器,必须安装数字证书,这个可以是自己制作,也可以想组织申请,区别在于自己颁发的证书,需要客户端验证通过,才可以继续访问(常见的就是浏...

    授客
  • 资源 | 普通程序员如何自学机器学习?这里有一份指南~

    机器学习工程师自学指南! 本文将会介绍机器学习的方方面面,从简单的线性回归到最新的神经网络,你不仅仅能学会如何使用它们,并且还能从零进行构建。 以下内容以计算机...

    AI科技大本营
  • TechWork技术工作坊学员准备 ——使用Tencent Hub工作流进行DevOps编排的应用实践

    2. 熟悉Docker,Kubernetes技术,有实际使用过Kubernetes更佳;

    云加社区
  • 机器学习人工学weekly-12/17/2017

    1. 第一当然是NIPS啦(注意看上一期NIPS在Facebook上的视频)。NIPS开完,各种资料分析就出来啦,对我们这种没有机会去现场的人来说是个福音。 t...

    windmaple
  • 积极参与开源项目,促进.NET Core生态社区发展

    今天早上在微信群里聊天聊到百度的SDK 已经支持.NET Core, 百度已经在3月份就支持了,想起当时还是我在他们的github上提的issue: https...

    张善友
  • 代码开放--模仿学习3篇论文及官方效果视频

    https://sites.google.com/view/one-shot-imitation

    用户1908973

扫码关注云+社区

领取腾讯云代金券