我是攻城师-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏成员

492

文章

1001145

阅读量

119

订阅数

网页去重思路浅析（一）

最近，由于工作需要，需要对爬虫爬下来的网页数据进行相似度去重。那么问题来了，为什么要去重？爬虫采集的数据可能来自各个网站，比如一个热门新闻，可能网易，搜狐，新浪，都有转载报道，如果不做任何措施，那么存储到库里就是3条数据，当然这仅仅是一个例子，假如，你有几TB或PB的数据，如果还这样，那么你的库可能有30%都是大量的重复数据，这些重复数据，一般不会给你带来任何价值，而且会占用大量的存储空间，查询和计算性能。所以这些然并卵的数据，还是需要考虑一下去重删减的步骤。其实去重是一件说复杂也非常

我是攻城师

2018-05-14

1.9K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态