首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python爬虫小说

selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities 一章内容...选择的小说是你是我的城池营垒,如果要把所有章节取下来就要点进每一章然后去,一开始觉得有点击所以要用selenium,但是写到后面发现传每一章的url就可以不用模拟点击,所以可以不用selenium...'a+', encoding='utf-8') print(title) str = div.text + "\n\n" f.write(title) f.write(str) f.close() 所有章节...把上面的一个章节封装成一个函数,一会调用。...链接都是有长度相等的字符串,所以可以用切片的方法获取每一章的链接: for li in all_li: str_0 = str(li) str_0 = str_0[9: 31] 然后把链接传到每一章的函数里就可以完成整章小说取了

59510

Python爬虫实战——小说

今天分享一个简单的爬虫——小说。 01 页面分析 ---- 首先我们进入某小说网的主页,找到免费完本的页面。 然后随便挑一本小说点击进入小说的详细页面,点击查看目录。...content.text + "\n") # print(content.text) print(url[0] + "——已完毕...cnt += 1 except Exception as e: print(e) 02 爬虫获取 ---- 我们封装获取各个章节Url的类和获取各个章节内容的类...StartSpider.py from SpiderQiDian.GetChapterContent import * if __name__ == '__main__': # 要小说的url...getChapterContent() 运行时状态如下图所示: 项目目录如下图所示: 最后,代码放在了码云git仓库中 https://gitee.com/hanxianzhe/spider 欢迎大家收藏,将持续更新一些爬虫项目

2.7K10

Python爬虫之图片

爬虫步骤: 准备好我们所需要的代理IP(代理IP的获取方法见:https://blog.csdn.net/qq_38251616/article/details/79544753) 首先url...是必要的 利用url进行取到的信息进行整合 保存到本地 具体的步骤: 利用代理IP和requests.get()语句获取网页 BeautifulSoup()解析网页(BeautilfulSoup...知识点补充: 关于爬虫中的headers:在使用python爬虫数据的时候,经常会遇到一些网站的反爬虫措施,一般就是针对于headers中的User-Agent,如果没有对headers进行设置,User-Agent...会声明自己是python脚本,而如果网站有反爬虫的想法的话,必然会拒绝这样的连接。...关于爬虫中的IP/proxies:在User Agent设置好后,还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准

1.5K40

python爬虫-盗墓笔记

本来今天要继续更新 scrapy美女图片 系列文章,可是发现使用免费的代理ip都非常不稳定,有时候连接上,有时候连接不上,所以我想找到稳定的代理ip,下次再更新 scrapy美女图片之应对反爬虫...这一篇文章是关于盗墓笔记,主要技术要点是scrapy的使用,scrapy框架中使用mongodb数据库,文件的保存。 ? 这次的网址是 http://seputu.com/。...按照咱们之前的学习爬虫的做法,使用firebug审查元素,查看如何解析html。 这次咱们要把书的名称,章节,章节名称,章节链接抽取出来,存储到数据库中,同时将文章的内容提取出来存成txt文件。...DaomubijiSpider.py ------Spider 蜘蛛 items.py -----------------对要数据的模型定义 pipelines.py...接下来切换到main.py所在目录,运行python main.py启动爬虫。 ? 没过几分钟,爬虫就结束了,咱们看一下的数据和文件。 ? 数据库数据: ?

50671

Python爬虫美剧网站

正好一直在学习Python爬虫,所以今天就心血来潮来写了个爬虫,抓取该网站上所有美剧链接,并保存在文本文档中,想要哪部剧就直接打开复制链接到迅雷就可以下载啦。 ?...但是很多url是不存在的,所以会直接挂掉,别担心,我们用的可是requests,其自带的status_code就是用来判断请求返回的状态的,所以只要是返回的状态码是404的我们都把它跳过,其他的都进去链接...,但是只是一篇文章的,所以借鉴了一下其正则表达式。...搞得我本来还想使用Redis在两台Linux上,但是折腾了一番之后感觉没必要,所以就这样吧,后面需要更大数据的时候再去弄。...就是这个问题,一早上的时间都花在这上面的,一开始我以为是抓取数据的错误,后面查了半天才发现是的剧名中带有斜杠,这可把我坑苦了。

1.1K00

Python | Python爬虫知乎小结

文章来源: http://blog.csdn.net/qq_37267015/article/details/62217899 最近学习了一点网络爬虫,并实现了使用Python知乎的一些功能,这里做一个小的总结...下面我分功能来介绍如何知乎。 模拟登录 要想实现对知乎的,首先我们要实现模拟登录,因为不登录的话好多信息我们都无法访问。...需要注意的是,在login函数中有一个全局变量s=reequests.session(),我们用这个全局变量来访问知乎,整个过程中,该对象都会保持我们的持续模拟登录。...知乎上有一个问题是如何写个爬虫程序扒下知乎某个回答所有点赞用户名单?,我参考了段小草的这个答案如何入门Python爬虫,然后有了下面的这个函数。 这里先来大概的分析一下整个流程。...再下面的工作应该就是学习python爬虫框架scrapy和微博了。

1.3K21
领券