首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫 30行代码爬取500万数据

爬虫小编就不介绍了,不知道同学可以看我一起发表的文章。

今天我要讲的是30行代码爬取500W数据

你们会想小编是在吹牛逼吧,我想说的是集中你们的注意力吧!

接下来看小编来表演

首先我来讲一下我们今天要爬取数据是什么

是什么呢

没错就是 小说

小说 小说 小说 重要的事情说三遍

不是一本小说

而是一个小说网站的所有小说

500W本小说,你没有听错就是500万本小说

我用这500万小说建了一个自己的小说网

羡慕吗 不用羡慕 小编会让你也拥有一个自己的小说网

1. 先来看看我的小说网

爬来的500W数据

2. 然后是我用到的工具 PyCharm

PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。

接下来开始操作

全书网

4.网站分析

首页有12本书是不是我们只能爬这12本书

当然不是,这时候就需要我们仔细分析。你会发现这个小说网有12个分类,每个分类里面有好多书。

看见没900多页,每页几百本,这些就是我们要爬取的数据.

5.分析写代码

这个写下来怕你们不了解,我就直接上代码.

下面来看一下写好的代码 成果

好了今天家讲到这里,当然你想单凭这篇文章学会这个技术是不可能。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180108A0CEWP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券