腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

keinYe

专栏作者

53

文章

67388

阅读量

16

订阅数

外行学 Python 爬虫第十篇爬虫框架Scrapy

爬虫 scrapy php 数据库 sql

前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储，同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程，对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」，当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫，加快开发速度。

2019-08-15

1.1K0

外行学 Python 爬虫第四篇 URL 去重

php python 网站编程算法

当你可以从网站上获取网页，也可以将网页中有效的信息提取出来以后，接下来你会做什么？我想它一定是一个肯定的答案『获取整个网站的内容』，毕竟只获取网站上一个网页的内容听起来和看起来都不是那么的高大上，只有将整个网站的内容提取出来它才能称得上爬虫这个有科技感和高大上的名字。

2019-08-01

8190

Python 爬虫第三篇（循环爬取多个网页）

php 爬虫 https python 网络安全

本篇是 python 爬虫的第三篇，在前面两篇 Python 爬虫第一篇（urllib+regex）和 Python 爬虫第二篇（urllib+BeautifulSoup）中介绍了如何获取给定网址的网页信息，并解析其中的内容。本篇将更进一步，根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能，我们需要解决以下问题：

2019-08-01

7.3K1

外行学 Python 爬虫第七篇开启多线程加快爬取速度

编程算法 php python 爬虫

经过上一篇文章外行学 Python 爬虫第六篇动态翻页我们实现了网页的动态的分页，此时我们可以爬取立创商城所有的原件信息了，经过几十个小时的不懈努力，一共获取了 16万+ 条数据，但是软件的效率实在是有点低了，看了下获取 10 万条数据的时间超过了 56 个小时，平均每分钟才获取 30 条数据。

2019-08-01

1.1K0

外行学 Python 爬虫第八篇功能优化

php 爬虫正则表达式数据库 sql

在前一篇中讲了如何开启多线程来加快爬虫的爬取速度，本节主要对爬虫爬取内容机型优化，将生产商信息单独独立出来作为一张数据库表，不再仅仅是存储一个生产商的名称，同时保存了生产商的网址和介绍。

2019-08-01

5020

初识 Python 网络请求库 urllib

网络安全 https php http

urllib 是 Python 自带的网络请求标准库，包含了多个处理 URL 功能的模块。

2019-08-01

8500

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态