在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。
但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。 这就对我们的清理工作造成了巨大的困难。
鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:
受害博客、失效链接、失效链接代号。
当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度出发,我的链接基本都是蓝字跳转),如果不是跳转链接,暂时没做。
好,开工!!!
首先,要拿到我全部的博客链接:
经过我的分析得出:
'''
纪录:1、如果一个链接为空,则爬出来的文本列表为空
2、文内链接之后跟的就是链接释义
3、自定义域名需要转化为默认域名才能使用
'''