前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分布式爬虫| 你必须得懂的那些Redis基础

分布式爬虫| 你必须得懂的那些Redis基础

作者头像
Python进击者
发布2019-07-30 12:15:07
6590
发布2019-07-30 12:15:07
举报
文章被收录于专栏:JAVAandPython君JAVAandPython君

这是我们分布式爬虫系列文章的第三篇文章了,这是最后一篇打基础的文章,在下一篇文章中,我们就会通过一个实战,来彻彻底底教会大家分布式爬虫!

今天,我们主要讲的是Redis数据库,相信大家肯定听说过这个数据库。我们主要分为Redis的安装与启动以及Redis的使用基础两个方面来给大家讲解。

Redis的安装

我们首先进入到容器当中,具体可以看图:

进入之后,我们输入

代码语言:javascript
复制
apt-get -y install redis-server

稍作等待,即可安装成功。

如果这个过程中出现问题,可以升级一下你的apt-get

代码语言:javascript
复制
apt-get update

Redis的启动和连接

我们安装完成之后,就需要启动Redis数据库服务器

代码语言:javascript
复制
/etc/init.d/redis-server restart

其实,Redis是分为服务器和客户端两端的,我们上面启动是服务器,就意味着Redis服务打开了,此时我们需要打开客户端去连接服务器。

不带参数的连接服务器

代码语言:javascript
复制
redis-cli

带参数的连接服务器

代码语言:javascript
复制
redis-cli -h 主机地址 -p 端口

如果大家在这里遇到了下图的报错:

提示说Connection refused ,这里我教大家来解决

首先进入/etc/redis 然后vi redis.conf,来编辑这个文件

找到这句话,上图是我修改后的,后面的172.18.0.4是我的容器ip,如何查看可以去上一篇docker的文章中找。

Redis使用基础

Redis与其他的数据库不同之处在于Redis中的存储格式是键值对。

1. 例如我们想设置一个数据,我们可以使用set来实现,取出数据使用get

2. 获取键值的长度 strlen

3. 批量设置键值对,取出键值对

在Redis中还有一种存储方式,被称为哈希存储法。它比键值对多了一个“域”。 键 - 域 - 值(key - field - value)

那么我们怎么设置这种数据呢?

那么又如何批量设置键- 域 -值?

其实用于分布式爬虫中的Redis基础就这么多,当然Redis的用法还有很多,如果大家想深入了解,可以去百度搜索一下。

那么我们今天学的这些东西到底有什么用呢?我来给大家简单介绍一下,当我们爬取某个网页时,我们可以使用以下命令:

代码语言:javascript
复制
hset url 123.com 1

此时我们将这个url的值设置为1,就代表我们已经爬取过这个网页了,下次爬取时就不会重复爬取这个网页。如果我们没有爬取这个网页,那么它的值就为null,我们就对其爬取。

整体的思路还是非常简单的,好了,今天我们就写到这,下一篇文章我们会用一个分布式爬虫实战来教大家完完整整的写一个分布式爬虫,记得持续关注!!!


原创不易,希望大家点赞转发!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python进击者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档