喜马拉雅爬虫与重命名-04

文章来源：企鹅号 - SHAREBIU

人生苦短，我用Python！

运行效果

不断学习，不断进步

记录一下

简单的爬虫程序，用到urllib和XPath以及os、time

最近上班一直在听的网络有声小说，购买完章节下载后发现音频只有数字代表章节，并没有具体的标题，因此就想用Python“优雅”的做一个自动从喜马拉雅FM获取章节标题并重命名的PY

于是乎.......

下面看代码

思路：使用open函数获取网站HTML，使用XPath路径快速的获取连接标签，并且循环获取所有TITLE。这里喜马拉雅FM是有反爬虫策略的，直接获取HTML返回的是空，经过一番研究之后，查看网站的robots.txt发现并没有爬虫版权，因此直接使用ADDHEADERS函数传入Header伪装浏览器去爬虫，完美解决！获取的标题直接存在一个链里，可以看见相比于正则表达式，XPATH运行时间会缩短一半（当然可能和计算机配置有关）。准备工作完成之后，使用os.listdir()函数获取指定文件夹位置（这里直接手动输入地址），使用FOR循环遍历所有文件并重命名，最后打印出来防止章节错误！可以看到有效代码只有28行，5秒左右便全部重命名了1000个音频，很高效！

不足之处：代码可以优化！（我觉得完美＜(▰˘◡˘▰)）

【完】

PS：代码入门级别，用作个人记录使用。

2018年3月29日二月十三

发表于: 2018-03-292018-03-29 18:00:21
原文链接：http://kuaibao.qq.com/s/20180329G1CHEC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

喜马拉雅爬虫与重命名-04

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐