首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python爬虫—小说

selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities 取一章内容...选择的小说是你是我的城池营垒,如果要把所有章节取下来就要点进每一章然后去取,一开始觉得有点击所以要用selenium,但是写到后面发现传每一章的url就可以不用模拟点击,所以可以不用selenium...div后面也加一个,要不然每一章小说就会连在一起。...把上面的取一个章节封装成一个函数,一会调用。...链接都是有长度相等的字符串,所以可以用切片的方法获取每一章的链接: for li in all_li: str_0 = str(li) str_0 = str_0[9: 31] 然后把链接传到取每一章的函数里就可以完成整章小说取了

61410

Python小说并写入word文档

至此,基本就可以确定思路了: 手动获取小说url——>取章节名称及其url——>正文获取 环境准备 环境还是比较简单的,请求工具+解析工具+文档写入工具,具体包含四个 pip install requests...pip install lxml pip install docx # docx包的运行需要依赖python-docx,所以也要安装 pip install python-docx 章节与url获取...请求数据 请求网页数据就比较简单,python有很多相关的包,这里就使用requests包就行;另外这种小网站,正常是没有发爬虫机制的,但是为了严谨一点,还是设置一下请求头数据。...cookie和user-agent获取方式: 发送请求获取数据 导入requests包,设置headers字典类型的参数,headers就是上面获取的cookie和user-agent参数;然后设置要取的小说的...,再是小说内容的获取,清晰简单; 批量小说思路 这个就简单的扩展一下,我们发现网站中会有一个全部小说页,内容就是小说列表; 所以思路就是取这个页面的小说名称和基本信息以及小说概览页的URL; 进一步重复本文的主要工作就行

70110

Python爬虫教程,小说网站

取网站:http://www.biqugecom.com/ 取方式:整站取,就是把该站所有的小说都爬下来。...得到每个分类的页面的链接只有上面箭头指的地方变了下,因此这里使用Python自动生成了分类的链接: typeLinks = [] for i in range(1, 9): typeLinks.append...通过Xpath 获取到了一本小说的链接。 再根据一本小说的链接取该小说的章节链接,首先获取章节的Xpath: ? 获取到了一章的链接,再根据一章的链接获取小说的文本内容,还是Xpath获取: ?...获取到小说的文本内容,下面就可以开始取内容了,这里先整理一下待取的内容的Xpath: //*[@class='media-heading book-title']/a/@href 一章的Xpath:...查看取的小说: ? ?

1.4K30

起点小说取--scrapyredisscrapyd

之前写了一篇网络字体反之pyspider取起点中文小说 可能有人看了感觉讲的太模糊了,基本上就是一笔带过,一点也不详细。...这里要说明一下,上一篇主要是因为有字体反,所以我才写了那篇文章,所以主要就是提一个字体反的概念让大家知道,其中并没有涉及到其他比较难的知识点,所以就是大概介绍一下。 今天依然是起点小说取。.../Versions/3.6/bin目录下的scrapyd-deploy添加到环境变量 ln -s /Library/Frameworks/Python.framework/Versions/3.6/bin...Windows下在python安装目录下找找吧,我用的Mac没法尝试了。...因为我在取的过程中发现起点首页提供的所有小说信息中,最后一些分页里的数据都是重复的,所以还是需要增加去重处理的。

1.7K40

python爬虫之取笔趣阁小说

前言 为了上班摸鱼方便,今天自己写了个取笔趣阁小说的程序。好吧,其实就是找个目的学习python,分享一下。...网站链接最后的一位数字为一本书的id值,一个数字对应一本小说,我们以id为1的小说为示例。...这是因为页面html的编码格式与我们python访问并拿到数据的解码格式不一致导致的,python默认的解码方式为utf-8,但是页面编码可能是GBK或者是GB2312等,所以我们需要让python代码很具页面的解码方式自动变化...并且div标签中包含了class属性,我们可以通过class属性获取指定的div标签,详情看代码~'''# lxml: html解析库 将html代码转成python对象,python可以对html代码进行控制...到此这篇关于python爬虫之取笔趣阁小说的文章就介绍到这了 *声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜

1.4K30

python取全站小说,你想看的都取下来!

前言 小说,宅男必备,也是当今社会人们打发时间的一种方式。今天教大家取新笔趣阁小说网,获取网站小说数据,保存为对应的txt文件。...取思路: 向小说链接发送请求 - 获取小说章节链接 向小说章节链接发送请求 - 获取章节文本内容 以小说章节标题为名保存小说文本内容 实战代码 导入需要用到的模块: import requests import...newline="") as f: f.write(title + '\n') f.write(data_text) f.close() 小结 1、本文基于Python...,利用python爬虫模块,实现小说数据并保存下来。...2、本文代码较少,但不够完美,未使用面向过程方法构写,而且取速度较慢。 3、如果需要取整站小说,可以通过网站首页网址,然后获取一本本小说的链接,接着继续套娃。

4K20

python爬虫取《斗破苍穹》小说(入门必备)

小菌之前分享过几篇关于python爬虫的实战经典案例,相信许多没有学过python的小伙伴们肯定都按奈不住纷纷自学去了,哈哈O(∩_∩)O本次小菌带来的同样是适合入门级爬虫爱好者的一个基础案例...——取《斗破苍穹》全文内容~ 首先我们先根据网址来到http://www.doupoxs.com/来到斗破小说网,选中我们这次取的目标!...根据对小说的页数观察,我们发现该小说一共有1645页数据。于是我们就可以先构建url的列表推导式!...因为我们需要获取到每一章小说的标题提作为我们保存小说内容的文本名,所有根据网页源码的构成情况,利用BeautifulSoup将其获取。...具体的源码如下所示 """ @File : 《斗破苍穹》小说内容取.py @Time : 2019/10/31 10:30 @Author : 封茗囧菌 @Software: PyCharm

1.2K20

Python爬虫系列:小说并写入txt文件

Python爬虫系列 ——小说并写入txt文件 本教程使用的单线程单本下载小说代码会不定期维护,最新源码及相关教程以CSDN博客为主,教程所说的多线程多本由于博主时间有限,暂时不做维护,仅作为一个教程供大家参考...文章介绍了如何从网站中小说并写入txt文件中,实现了单章节写取,整本写取,多线程多本写取。...爬虫使用的python版本为python3,有些系统使用python指令运行本脚本,可能出现错误,此时可以试一试使用python3运行本脚本。...运行效果 8.多线程取多本小说 同样的,在此之前如果对于python线程不了解的可以阅读以下文章: Python 多线程 关于多线程的代码就不过多介绍了,在项目源码中会有相关的使用方法...(PS:通过实验,每次同步下载100本小说最好,太多的话进程可能会被杀死) 9.最终效果 最终的源码实现如下效果: 每次同步取100本小说 会生成一个关于小说的介绍文档,文档介绍了每次取的

3.2K41
领券