腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

keinYe

专栏作者

53

文章

67360

阅读量

16

订阅数

外行学 Python 爬虫第十篇爬虫框架Scrapy

爬虫 scrapy php 数据库 sql

前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储，同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程，对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」，当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫，加快开发速度。

2019-08-15

1.1K0

外行学 Python 爬虫第三篇内容解析

html css javascript 爬虫编程算法

从网络上获取网页内容以后，需要从这些网页中取出有用的信息，毕竟爬虫的职责就是获取有用的信息，而不仅仅是为了下来一个网页。获取网页中的信息，首先需要指导网页内容的组成格式是什么，没错网页是由 HTML「我们成为超文本标记语言，英语：HyperText Markup Language，简称：HTML」组成的，其次需要解析网页的内容，从中提取出我们想要的信息。

2019-08-01

1.2K0

外行学 Python 爬虫第二篇获取内容

爬虫 http python

一个无法获取内容的爬虫不是一个真正的爬虫，爬虫的首要目标是从网络上获取内容。目前我们所看到的网页都是通过超文本传输协议「英语：HyperText Transfer Protocol，缩写：HTTP」在服务器和客户端之间进行数据交换。

2019-08-01

3490

外行学 Python 爬虫第一篇介绍

爬虫 python 数据分析网站

为什么标题叫做“外行学 Python 爬虫”？是因为本人非 IT 互联网从业人员，唯一能说得上关系的是本人是一个 C 的开发人员，从事的是与嵌入式相关的工作，即与互联网无关，也与数据分析无关。那么为什么要学 Python 爬虫呢？原因一、多一门技能增加自己的职业竞争力。原因二、提升自己的生存「赚钱」能力。

2019-08-01

3850

Python 爬虫第三篇（循环爬取多个网页）

php 爬虫 https python 网络安全

本篇是 python 爬虫的第三篇，在前面两篇 Python 爬虫第一篇（urllib+regex）和 Python 爬虫第二篇（urllib+BeautifulSoup）中介绍了如何获取给定网址的网页信息，并解析其中的内容。本篇将更进一步，根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能，我们需要解决以下问题：

2019-08-01

7.3K1

外行学 Python 爬虫第七篇开启多线程加快爬取速度

编程算法 php python 爬虫

经过上一篇文章外行学 Python 爬虫第六篇动态翻页我们实现了网页的动态的分页，此时我们可以爬取立创商城所有的原件信息了，经过几十个小时的不懈努力，一共获取了 16万+ 条数据，但是软件的效率实在是有点低了，看了下获取 10 万条数据的时间超过了 56 个小时，平均每分钟才获取 30 条数据。

2019-08-01

1.1K0

外行学 Python 爬虫第八篇功能优化

php 爬虫正则表达式数据库 sql

在前一篇中讲了如何开启多线程来加快爬虫的爬取速度，本节主要对爬虫爬取内容机型优化，将生产商信息单独独立出来作为一张数据库表，不再仅仅是存储一个生产商的名称，同时保存了生产商的网址和介绍。

2019-08-01

5020

Python 爬虫第四篇（保存数据到文件）

在前面一篇 Python 爬虫第三篇（循环爬取多个网页）中介绍了如何让爬虫自动搜索网站中的链接并循环获取链接的内容，那么问题来了，既然我们通过爬虫自动获取了多个网页的内容，那么这些内容该怎么处理，如果仅仅是停留在内存中，且不说没有那么大的内存来存储这些数据，程序一旦停止这些数据将全部丢失，简单便捷的方法是将这些数据保存到硬盘上，本篇我们将一起来看下如何将数据存储在硬盘上。

2019-08-01

9550

Python 爬虫学习一

爬虫数据分析存储正则表达式搜索引擎

简单来说网络爬虫就是自动索引互联网上信息的一段程序，看起来像是一个搜索引擎「实际上网络爬虫就是搜索引擎的重要组成部分」，对于我们不做搜索引擎的人来说又为什么来学习爬虫呢，对于我来说很简单，就是想要通过学习爬虫的过程来巩固 python 的知识，通过爬虫我们可以学到什么知识呢？我们可以学到网络编程、数据分析、数据存储。分别对应了爬虫的三个主要功能抓取、分析、存储。

2019-08-01

3400

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态