首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

喜马拉雅爬虫与重命名-04

人生苦短,我用Python!

运行效果

不断学习,不断进步

记录一下

简单的爬虫程序,用到urllib和XPath以及os、time

最近上班一直在听的网络有声小说,购买完章节下载后发现音频只有数字代表章节,并没有具体的标题,因此就想用Python“优雅”的做一个自动从喜马拉雅FM获取章节标题并重命名的PY

于是乎.......

下面看代码

思路:使用open函数获取网站HTML,使用XPath路径快速的获取连接标签,并且循环获取所有TITLE。这里喜马拉雅FM是有反爬虫策略的,直接获取HTML返回的是空,经过一番研究之后,查看网站的robots.txt发现并没有爬虫版权,因此直接使用ADDHEADERS函数传入Header伪装浏览器去爬虫,完美解决!获取的标题直接存在一个链里,可以看见相比于正则表达式,XPATH运行时间会缩短一半(当然可能和计算机配置有关)。准备工作完成之后,使用os.listdir()函数获取指定文件夹位置(这里直接手动输入地址),使用FOR循环遍历所有文件并重命名,最后打印出来防止章节错误! 可以看到有效代码只有28行,5秒左右便全部重命名了1000个音频,很高效!

不足之处:代码可以优化!(我觉得完美<(▰˘◡˘▰))

【完】

PS:代码入门级别,用作个人记录使用。

2018年3月29日 二月十三

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180329G1CHEC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券