爬虫小编就不介绍了,不知道同学可以看我一起发表的文章。
今天我要讲的是30行代码爬取500W数据
你们会想小编是在吹牛逼吧,我想说的是集中你们的注意力吧!
接下来看小编来表演
首先我来讲一下我们今天要爬取数据是什么
是什么呢
没错就是 小说
小说 小说 小说 重要的事情说三遍
不是一本小说
而是一个小说网站的所有小说
500W本小说,你没有听错就是500万本小说
我用这500万小说建了一个自己的小说网
羡慕吗 不用羡慕 小编会让你也拥有一个自己的小说网
1. 先来看看我的小说网
爬来的500W数据
2. 然后是我用到的工具 PyCharm
PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
接下来开始操作
全书网
4.网站分析
首页有12本书是不是我们只能爬这12本书
当然不是,这时候就需要我们仔细分析。你会发现这个小说网有12个分类,每个分类里面有好多书。
看见没900多页,每页几百本,这些就是我们要爬取的数据.
5.分析写代码
这个写下来怕你们不了解,我就直接上代码.
下面来看一下写好的代码 成果
好了今天家讲到这里,当然你想单凭这篇文章学会这个技术是不可能。
领取专属 10元无门槛券
私享最新 技术干货