分布式爬虫去重：Python + Redis实现高效URL去重

小白学大数据

发布于 2025-05-08 11:34:46

19500

代码可运行

文章被收录于专栏：python进阶学习python进阶学习

运行总次数：0

代码可运行

1. 引言

在互联网数据采集（爬虫）过程中，URL去重是一个关键问题。如果不对URL进行去重，爬虫可能会重复抓取相同页面，导致资源浪费、数据冗余，甚至触发目标网站的反爬机制。

对于单机爬虫，可以使用Python内置的**set()**或**dict**进行去重，但在分布式爬虫环境下，多个爬虫节点同时工作时，内存级的去重方式不再适用。此时，需要一个共享存储来管理已爬取的URL，而Redis凭借其高性能、低延迟和分布式支持，成为理想选择。

2. URL去重的常见方法

2.1 基于内存的去重（单机适用）

Python **set()** 最简单的去重方式，适用于小规模数据，但无法持久化，重启后数据丢失。

visited_urls = set()
if url not in visited_urls:
    visited_urls.add(url)
    # 抓取逻辑

Bloom Filter（布隆过滤器） 节省内存，但有一定误判率（可能误判未访问的URL为已访问），适用于海量URL去重。

2.2 基于数据库的去重（分布式适用）

Redis Set / Redis HyperLogLog
- **SET** 结构存储URL，精确去重（100%准确）。
- **HyperLogLog** 适用于统计不重复元素数量（有一定误差，但占用内存极小）。
关系型数据库（MySQL, PostgreSQL） 通过**UNIQUE**约束去重，但性能较低，不适合高并发爬虫。
分布式键值存储（如Memcached） 类似Redis，但功能较少，通常仅用于缓存。

3. Redis 在分布式爬虫去重中的优势

Redis 是一个高性能的内存数据库，支持多种数据结构，适用于分布式爬虫去重，主要优势包括：

高性能：数据存储在内存中，读写速度极快（10万+ QPS）。
持久化：支持RDB/AOF持久化，避免数据丢失。
分布式支持：可通过集群模式扩展，支持多爬虫节点共享数据。
丰富的数据结构：**SET**（精确去重）、**HyperLogLog**（近似去重）、**Bitmap**（位图去重）等。

4. Python + Redis 实现分布式URL去重

4.1 方案1：使用 Redis Set 精确去重

import redis

class RedisUrlDedupe:
    def __init__(self, redis_host='localhost', redis_port=6379, redis_db=0):
        self.redis = redis.StrictRedis(
            host=redis_host, port=redis_port, db=redis_db
        )
        self.key = "visited_urls"

    def is_visited(self, url):
        """检查URL是否已访问"""
        return self.redis.sismember(self.key, url)

    def mark_visited(self, url):
        """标记URL为已访问"""
        self.redis.sadd(self.key, url)

# 示例用法
deduper = RedisUrlDedupe()
url = "https://example.com/page1"

if not deduper.is_visited(url):
    deduper.mark_visited(url)
    print(f"抓取: {url}")
else:
    print(f"已访问: {url}")

优点：

100% 准确，无误差。
适用于中小规模爬虫（百万级URL）。

缺点：

存储所有URL，内存占用较高。

4.2 方案2：使用 Redis HyperLogLog 近似去重

如果允许少量误差（~0.8%），可使用**HyperLogLog**节省内存：

class RedisHyperLogLogDedupe:
    def __init__(self, redis_host='localhost', redis_port=6379, redis_db=0):
        self.redis = redis.StrictRedis(
            host=redis_host, port=redis_port, db=redis_db
        )
        self.key = "hll_visited_urls"

    def is_visited(self, url):
        """检查URL是否可能已访问（可能有误判）"""
        before = self.redis.pfcount(self.key)
        after = self.redis.pfadd(self.key, url)
        return after == 0  # 如果添加后计数未变，说明可能已存在

# 示例用法
hll_deduper = RedisHyperLogLogDedupe()
url = "https://example.com/page1"

if not hll_deduper.is_visited(url):
    print(f"抓取: {url}")
else:
    print(f"可能已访问: {url}")

优点：

内存占用极低（12KB可存储数亿URL）。
适用于超大规模爬虫（如全网爬取）。

缺点：

有少量误判（可能将未访问的URL误判为已访问）。

4.3 方案3：使用 Redis Bloom Filter（需安装RedisBloom模块）

Redis 官方提供 RedisBloom 模块，支持布隆过滤器（需额外安装）：

# 需确保Redis服务器加载了RedisBloom模块
class RedisBloomFilterDedupe:
    def __init__(self, redis_host='localhost', redis_port=6379, redis_db=0):
        self.redis = redis.StrictRedis(
            host=redis_host, port=redis_port, db=redis_db
        )
        self.key = "bloom_visited_urls"

    def is_visited(self, url):
        """检查URL是否可能已访问（可能有误判）"""
        return self.redis.execute_command("BF.EXISTS", self.key, url)

    def mark_visited(self, url):
        """标记URL为已访问"""
        self.redis.execute_command("BF.ADD", self.key, url)

# 示例用法
bloom_deduper = RedisBloomFilterDedupe()
url = "https://example.com/page1"

if not bloom_deduper.is_visited(url):
    bloom_deduper.mark_visited(url)
    print(f"抓取: {url}")
else:
    print(f"可能已访问: {url}")

优点：

内存占用低，误判率可控。
适用于海量URL去重。

缺点：

需要额外安装RedisBloom模块。

5. 性能优化与对比

方法	准确率	内存占用	适用场景
Redis Set	100%	高	中小规模爬虫（<1000万URL）
Redis HyperLogLog	~99.2%	极低	超大规模爬虫（允许少量误判）
Redis Bloom Filter	可调	中	海量URL（需额外模块）