腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
keinYe
专栏作者
举报
53
文章
67388
阅读量
16
订阅数
订阅专栏
申请加入专栏
全部文章(53)
python(36)
编程算法(16)
数据库(10)
sql(10)
flask(10)
爬虫(9)
php(6)
sqlalchemy(6)
http(6)
api(5)
网站(5)
正则表达式(5)
https(4)
html(3)
存储(3)
网络安全(3)
javascript(2)
jquery(2)
云数据库 Redis(2)
git(2)
github(2)
腾讯云测试服务(2)
数据分析(2)
java(1)
c++(1)
perl(1)
regex(1)
xml(1)
css(1)
ajax(1)
sqlite(1)
vba(1)
搜索引擎(1)
linux(1)
nginx(1)
命令行工具(1)
消息队列 CMQ 版(1)
开源(1)
shell(1)
html5(1)
面向对象编程(1)
tcp/ip(1)
单元测试(1)
scrapy(1)
udp(1)
socket编程(1)
windows(1)
processing(1)
搜索文章
搜索
搜索
关闭
外行学 Python 爬虫 第十篇 爬虫框架Scrapy
爬虫
scrapy
php
数据库
sql
前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储,同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程,对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」,当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫,加快开发速度。
keinYe
2019-08-15
1.1K
0
外行学 Python 爬虫 第四篇 URL 去重
php
python
网站
编程算法
当你可以从网站上获取网页,也可以将网页中有效的信息提取出来以后,接下来你会做什么?我想它一定是一个肯定的答案『获取整个网站的内容』,毕竟只获取网站上一个网页的内容听起来和看起来都不是那么的高大上,只有将整个网站的内容提取出来它才能称得上爬虫这个有科技感和高大上的名字。
keinYe
2019-08-01
819
0
Python 爬虫第三篇(循环爬取多个网页)
php
爬虫
https
python
网络安全
本篇是 python 爬虫的第三篇,在前面两篇 Python 爬虫第一篇(urllib+regex) 和 Python 爬虫第二篇(urllib+BeautifulSoup) 中介绍了如何获取给定网址的网页信息,并解析其中的内容。本篇将更进一步,根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能,我们需要解决以下问题:
keinYe
2019-08-01
7.3K
1
外行学 Python 爬虫 第七篇 开启多线程加快爬取速度
编程算法
php
python
爬虫
经过上一篇文章外行学 Python 爬虫 第六篇 动态翻页我们实现了网页的动态的分页,此时我们可以爬取立创商城所有的原件信息了,经过几十个小时的不懈努力,一共获取了 16万+ 条数据,但是软件的效率实在是有点低了,看了下获取 10 万条数据的时间超过了 56 个小时,平均每分钟才获取 30 条数据。
keinYe
2019-08-01
1.1K
0
外行学 Python 爬虫 第八篇 功能优化
php
爬虫
正则表达式
数据库
sql
在前一篇中讲了如何开启多线程来加快爬虫的爬取速度,本节主要对爬虫爬取内容机型优化,将生产商信息单独独立出来作为一张数据库表,不再仅仅是存储一个生产商的名称,同时保存了生产商的网址和介绍。
keinYe
2019-08-01
502
0
初识 Python 网络请求库 urllib
网络安全
https
php
http
urllib 是 Python 自带的网络请求标准库,包含了多个处理 URL 功能的模块。
keinYe
2019-08-01
850
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档