前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从零开始,学会Python爬虫不再难!!! -- (11)项目三:梳理博客中的无效链接丨蓄力计划

从零开始,学会Python爬虫不再难!!! -- (11)项目三:梳理博客中的无效链接丨蓄力计划

作者头像
看、未来
发布2021-09-18 10:51:58
2210
发布2021-09-18 10:51:58
举报
文章被收录于专栏:CSDN搜“看,未来”

任务背景

在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。

但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。 这就对我们的清理工作造成了巨大的困难。

鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:

代码语言:javascript
复制
受害博客、失效链接、失效链接代号。

当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度出发,我的链接基本都是蓝字跳转),如果不是跳转链接,暂时没做。

好,开工!!!


使用线程池做大并发爬取

获取全部博客链接

首先,要拿到我全部的博客链接:

经过我的分析得出:

代码语言:javascript
复制
'''
纪录:1、如果一个链接为空,则爬出来的文本列表为空
2、文内链接之后跟的就是链接释义
3、自定义域名需要转化为默认域名才能使用
'''
代码语言:javascript
复制
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 任务背景
  • 使用线程池做大并发爬取
    • 获取全部博客链接
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档