文章/答案/技术大牛

发布

使用Python爬取动态网页-腾讯动漫

文章来源：企鹅号 - 宅必备

好久没更新Python相关的内容了，这个专题主要说的是Python在爬虫方面的应用，包括爬取和处理部分

上节我们说了如何获取动态网页中的jquery内容

这节说如何利用selenium模拟浏览器动作

开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:selenium,PhantomJS

分析网页模块:BeautifulSoup4

关于Selenium

selenium 是一个Web自动测试的工具，可以用来操作一些浏览器Driver，例如Chrome，Firefox等，也可以使用一些headless的driver，例如PhantomJS

具体请参加官网:

关于PhantomJS

PhantomJS是一个无头(headless)的WebKit javascript API

我们可以用它模拟浏览器的操作，也可以用来截图

具体参加官网:

http://phantomjs.org/

模块安装

lxml为解析网页所必需

pip3 install selenium

pip3 install BeautifulSoup4

pip3 install lxml

Driver 下载

这里我们下载Chrome driver和 Phantomjs

其他的driver见官网

Chrome下载

下载完成后可以放到系统环境变量中，如:

C:\Windows\System32

https://sites.google.com/a/chromium.org/chromedriver/downloads

PhatomJS下载

下载后同样放到系统环境变量中

下载完成解压后只需要将exe文件放到目录下

http://phantomjs.org/download.html

网页分析

我们以幽游白书为例

http://ac.qq.com/ComicView/index/id/543606/cid/1

打开后发现漫画并没有全部加载需要向下翻页才可以加载完毕

之后通过开发者工具分析图片的地址

这里我们通过bs4 来提取出所有img地址

之后通过Python将其保存成图片

程序原理

代码介绍

1. import相关的模块

import selenium.webdriver

from bs4 import BeautifulSoup

2. 调用Chrome或者PhantomJS

driver = selenium.webdriver.Chrome()

#driver = selenium.webdriver.PhantomJS()

3. 获取网页源代码

content=driver.page_source

4. 获取标题和图片地址之后存入字典

5. 新建目录并下载图片

这里首先判断是否有该漫画的目录，如果没有则新建，之后下载图片，图片的名称为列表的索引号

执行结果

注意事项:

建议先用Chrome测试OK，再改用PhantomJS执行

Chrome和PhantomJS在实际向下翻页时有差异，需测试后调节循环次数

为防止被ban，每次爬取采用了随机延迟的方法

只能爬取免费的内容

本脚本仅用于学习用途

源码位置

发表于: 2018-02-262018-02-26 21:27:46
原文链接：http://kuaibao.qq.com/s/20180226G1CGWS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

使用Python爬取动态网页-腾讯动漫

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐