python爬虫 30行代码爬取500万数据

爬虫小编就不介绍了,不知道同学可以看我一起发表的文章。

今天我要讲的是30行代码爬取500W数据

你们会想小编是在吹牛逼吧,我想说的是集中你们的注意力吧!

接下来看小编来表演

首先我来讲一下我们今天要爬取数据是什么

是什么呢

没错就是 小说

小说 小说 小说 重要的事情说三遍

不是一本小说

而是一个小说网站的所有小说

500W本小说,你没有听错就是500万本小说

我用这500万小说建了一个自己的小说网

羡慕吗 不用羡慕 小编会让你也拥有一个自己的小说网

1. 先来看看我的小说网

爬来的500W数据

2. 然后是我用到的工具 PyCharm

PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。

接下来开始操作

全书网

4.网站分析

首页有12本书是不是我们只能爬这12本书

当然不是,这时候就需要我们仔细分析。你会发现这个小说网有12个分类,每个分类里面有好多书。

看见没900多页,每页几百本,这些就是我们要爬取的数据.

5.分析写代码

这个写下来怕你们不了解,我就直接上代码.

下面来看一下写好的代码 成果

好了今天家讲到这里,当然你想单凭这篇文章学会这个技术是不可能。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180108A0CEWP00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区