Python爬虫：“追新番”网站资源链接爬取

文章来源：企鹅号 - Python凡梦

“追新番”网站

追新番网站提供最新的日剧和日影下载地址，更新比较快。

个人比较喜欢看日剧，因此想着通过爬取该网站，做一个资源地图

可以查看网站到底有哪些日剧，并且随时可以下载。

资源地图

爬取的资源地图如下：

在linux系统上通过ls | grep keywords可以轻松找到想要的资源（windows直接搜索就行啦）

爬取脚本开发

1. 确定爬取策略

进入多个日剧，可以查看到每个剧的网址都是如下形式:

可以看出，每个日剧网页都对应一个编号。

因此我们可以通过遍历编号来爬取。

2. 获取日剧的名字

打开其中一个日剧的网页，查看标题的源代码如下:

可以看到，标题的标签ID为"pdtname", 我们只要获取该标签的文本即可获取日剧名字

通过beautifulSoup的接口，获取该标签内容（去除了名字中多余东西）

3. 获取资源链接

在每个日剧页面中同时也包含了资源链接的地址，查看源代码如下:

可以看到资源链接使用了一个表块，并且表块的ID为"ajax_tbody"

其中每一集都是表的行元素，每一行又包含了几列来显示资源的各个信息

我们通过遍历表的元素来获取每一集的资源链接

相关快讯