人生苦短,我用Python!
运行效果
不断学习,不断进步
记录一下
简单的爬虫程序,用到urllib和XPath以及os、time
最近上班一直在听的网络有声小说,购买完章节下载后发现音频只有数字代表章节,并没有具体的标题,因此就想用Python“优雅”的做一个自动从喜马拉雅FM获取章节标题并重命名的PY
于是乎.......
下面看代码
思路:使用open函数获取网站HTML,使用XPath路径快速的获取连接标签,并且循环获取所有TITLE。这里喜马拉雅FM是有反爬虫策略的,直接获取HTML返回的是空,经过一番研究之后,查看网站的robots.txt发现并没有爬虫版权,因此直接使用ADDHEADERS函数传入Header伪装浏览器去爬虫,完美解决!获取的标题直接存在一个链里,可以看见相比于正则表达式,XPATH运行时间会缩短一半(当然可能和计算机配置有关)。准备工作完成之后,使用os.listdir()函数获取指定文件夹位置(这里直接手动输入地址),使用FOR循环遍历所有文件并重命名,最后打印出来防止章节错误! 可以看到有效代码只有28行,5秒左右便全部重命名了1000个音频,很高效!
不足之处:代码可以优化!(我觉得完美<(▰˘◡˘▰))
【完】
PS:代码入门级别,用作个人记录使用。
2018年3月29日 二月十三
领取专属 10元无门槛券
私享最新 技术干货