首页
学习
活动
专区
工具
TVP
发布

keinYe

专栏作者
53
文章
67360
阅读量
16
订阅数
外行学 Python 爬虫 第十篇 爬虫框架Scrapy
前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储,同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程,对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」,当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫,加快开发速度。
keinYe
2019-08-15
1.1K0
外行学 Python 爬虫 第三篇 内容解析
从网络上获取网页内容以后,需要从这些网页中取出有用的信息,毕竟爬虫的职责就是获取有用的信息,而不仅仅是为了下来一个网页。获取网页中的信息,首先需要指导网页内容的组成格式是什么,没错网页是由 HTML「我们成为超文本标记语言,英语:HyperText Markup Language,简称:HTML」 组成的,其次需要解析网页的内容,从中提取出我们想要的信息。
keinYe
2019-08-01
1.2K0
外行学 Python 爬虫 第二篇 获取内容
一个无法获取内容的爬虫不是一个真正的爬虫,爬虫的首要目标是从网络上获取内容。目前我们所看到的网页都是通过超文本传输协议「英语:HyperText Transfer Protocol,缩写:HTTP」在服务器和客户端之间进行数据交换。
keinYe
2019-08-01
3490
外行学 Python 爬虫 第一篇 介绍
为什么标题叫做“外行学 Python 爬虫”?是因为本人非 IT 互联网从业人员,唯一能说得上关系的是本人是一个 C 的开发人员,从事的是与嵌入式相关的工作,即与互联网无关,也与数据分析无关。那么为什么要学 Python 爬虫呢?原因一、多一门技能增加自己的职业竞争力。原因二、提升自己的生存「赚钱」能力。
keinYe
2019-08-01
3850
Python 爬虫第三篇(循环爬取多个网页)
本篇是 python 爬虫的第三篇,在前面两篇 Python 爬虫第一篇(urllib+regex) 和 Python 爬虫第二篇(urllib+BeautifulSoup) 中介绍了如何获取给定网址的网页信息,并解析其中的内容。本篇将更进一步,根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能,我们需要解决以下问题:
keinYe
2019-08-01
7.3K1
外行学 Python 爬虫 第七篇 开启多线程加快爬取速度
经过上一篇文章外行学 Python 爬虫 第六篇 动态翻页我们实现了网页的动态的分页,此时我们可以爬取立创商城所有的原件信息了,经过几十个小时的不懈努力,一共获取了 16万+ 条数据,但是软件的效率实在是有点低了,看了下获取 10 万条数据的时间超过了 56 个小时,平均每分钟才获取 30 条数据。
keinYe
2019-08-01
1.1K0
外行学 Python 爬虫 第八篇 功能优化
在前一篇中讲了如何开启多线程来加快爬虫的爬取速度,本节主要对爬虫爬取内容机型优化,将生产商信息单独独立出来作为一张数据库表,不再仅仅是存储一个生产商的名称,同时保存了生产商的网址和介绍。
keinYe
2019-08-01
5020
Python 爬虫第四篇(保存数据到文件)
在前面一篇 Python 爬虫第三篇(循环爬取多个网页)中介绍了如何让爬虫自动搜索网站中的链接并循环获取链接的内容,那么问题来了,既然我们通过爬虫自动获取了多个网页的内容,那么这些内容该怎么处理,如果仅仅是停留在内存中,且不说没有那么大的内存来存储这些数据,程序一旦停止这些数据将全部丢失,简单便捷的方法是将这些数据保存到硬盘上,本篇我们将一起来看下如何将数据存储在硬盘上。
keinYe
2019-08-01
9550
Python 爬虫学习一
简单来说网络爬虫就是自动索引互联网上信息的一段程序,看起来像是一个搜索引擎「实际上网络爬虫就是搜索引擎的重要组成部分」,对于我们不做搜索引擎的人来说又为什么来学习爬虫呢,对于我来说很简单,就是想要通过学习爬虫的过程来巩固 python 的知识,通过爬虫我们可以学到什么知识呢?我们可以学到网络编程、数据分析、数据存储。分别对应了爬虫的三个主要功能抓取、分析、存储。
keinYe
2019-08-01
3400
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档