爬虫中的去重策略你知道多少？有什么区别

文章来源：企鹅号 - 极光站长经验分享

爬虫去重策略

大数据时代下，数据采集推动着数据分析，数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例，过程中就会面临，IP被封，爬取受限、违法操作等多种问题，所以在爬取数据之前，一定要了解好预爬网站是否涉及违法操作，找到合适的代理IP访问网站等一系列问题。

【极光爬虫代理】我们今天来聊聊爬虫的去重策略。

1、使用scrapy自带的set集合去重，当程序结束的时候会被清空。缺点：再次运行会导致数据重复。

2、使用mysql做去重，对url地址进行md5，base64加密，加密之后会得到一串字符，判断字符串是否在mysql表中，如果在表示已经爬取过了，如果不在，表示没有爬取，执行请求，将加密后的url地址存入表中。缺点：这个方法对mysql压力过大，导致崩溃，不推荐。

3、使用scrapy_redis的去重策略，会将已经爬取的url地址经过编码后存入redis，并且会做数据持久化，当爬虫再次启动时，会重新加载本地的数据，对爬虫的url做去重。缺点：如果数据量较大的时候，会占用较多的内存空间。

4、使用布隆去重，采用多重哈希，将url地址映射到位阵列中的某个点上，空间和时间利用率更高(推荐)。

如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表、树等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢。不过世界上还有一种叫作散列表（又叫哈希表，Hash table）的数据结构，它可以通过一个Hash函数将一个元素映射成一个位阵列（Bit Array）中的一个点。这样一来，我们只要看看这个点是不是1就知道可以集合中有没有它了。这就是布隆过滤器的基本思想。

Hash面临的问题就是冲突。假设 Hash 函数是良好的，如果我们的位阵列长度为 m 个点，那么如果我们想将冲突率降低到例如 1%，这个散列表就只能容纳 m/100 个元素。显然这就不叫空间有效了（Space-efficient）。解决方法也简单，就是使用多个 Hash，如果它们有一个说元素不在集合中，那肯定就不在。如果它们都说在，虽然也有一定可能性它们在说谎，不过直觉上判断这种事情的概率是比较低的。

布隆去重的优点和缺点

优点：相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash 函数相互之间没有关系，方便由硬件并行实现。布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势

缺点：但是布隆过滤器的缺点和优点一样明显。误算率（False Positive）是其中之一。随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。

发表于: 2018-11-102018-11-10 15:28:30
原文链接：https://kuaibao.qq.com/s/20181110A11OV200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

爬虫中的去重策略你知道多少？有什么区别

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐