前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python selenium下载电子书

python selenium下载电子书

作者头像
机器学习和大数据挖掘
发布2019-07-02 10:53:37
1.1K0
发布2019-07-02 10:53:37
举报
文章被收录于专栏:数据挖掘数据挖掘

有人推荐书籍《御伽草纸》,网上找了很久都找不到下载,估计是被Amazon版权了,但是在网易云阅读看到有书,所以就写个代码下载下来。

由于网易云阅读是js加载,用requests或者下载html的方法都太麻烦(毕竟这本书也才8万字),所以就简单粗暴的用selenium下载,而且还是截图(太懒啦...)

得到的图片被我转换为pdf:

附上代码:

代码语言:javascript
复制
 1 #!/usr/bin/python3.4
 2 # -*- coding: utf-8 -*-
 3 
 4 from selenium import webdriver
 5 import time
 6 from selenium.webdriver.common.keys import Keys
 7 from selenium.webdriver.common.action_chains import ActionChains
 8 
 9 # http://www.cnblogs.com/fnng/p/3238685.html
10 # 打开火狐浏览器
11 browser = webdriver.Chrome()
12 # 设置浏览器大小
13 browser.set_window_size(1200, 900)
14 # 输入网址
15 browser.get("http://yuedu.163.com/book_reader/ee677a1b42ed4af3b52adbe4c0fb6a23_4")
16 # 根据各自网速来判断网址加载时间
17 time.sleep(10)
18 
19 # 选择阅读方式
20 browser.find_element_by_class_name("portrait").click()
21 time.sleep(5)
22 for i in range(3000):
23     # 截图
24     browser.save_screenshot("../jpg/txt/" + str(i + 1) + ".png")
25     time.sleep(5)
26 
27     # 点击右边向右翻页
28     try:
29         ActionChains(browser).send_keys(Keys.ARROW_RIGHT).perform()
30         # ActionChains(browser).click().perform()
31         print("111111")
32     except:
33         ActionChains(browser).send_keys(Keys.ENTER).perform()
34         print("2222222222")
35 
36 browser.quit()

在我的github也放着呀:

御伽草纸

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-10-23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档