腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Golang开发
专栏成员
举报
289
文章
274256
阅读量
38
订阅数
订阅专栏
申请加入专栏
全部文章(289)
编程算法(117)
go(39)
java(29)
node.js(17)
python(16)
sql(16)
数据库(15)
http(15)
javascript(12)
打包(12)
ide(11)
git(10)
容器(10)
github(9)
网络安全(9)
xml(8)
网站(8)
大数据(8)
数据结构(8)
https(8)
json(7)
linux(7)
spark(7)
css(6)
jquery(6)
ecmascript(6)
容器镜像服务(6)
mapreduce(6)
c++(5)
bash(5)
html(5)
云数据库 Redis(5)
hadoop(5)
image(5)
png(5)
ios(4)
vue.js(4)
云数据库 SQL Server(4)
api(4)
nginx(4)
spring(4)
文件存储(4)
yarn(4)
存储(4)
面向对象编程(4)
zookeeper(4)
php(3)
scala(3)
jar(3)
unix(3)
开源(3)
分布式(3)
爬虫(3)
jdk(3)
正则表达式(3)
二叉树(3)
函数(3)
mac os(2)
c 语言(2)
servlet(2)
jsp(2)
android(2)
单片机(2)
django(2)
bash 指令(2)
访问管理(2)
缓存(2)
jvm(2)
ssh(2)
jdbc(2)
npm(2)
Elasticsearch Service(2)
byte(2)
case(2)
file(2)
func(2)
gif(2)
io(2)
list(2)
map(2)
queue(2)
set(2)
struct(2)
tail(2)
变量(2)
对象(2)
继承(2)
排序(2)
权限(2)
字符串(2)
其他(1)
机器学习(1)
cocoa(1)
xcode(1)
arm(1)
oracle(1)
access(1)
mvc(1)
struts(1)
maven(1)
搜索引擎(1)
中文分词(1)
analyzer(1)
ubuntu(1)
centos(1)
云函数(1)
日志服务(1)
命令行工具(1)
云数据库 MongoDB(1)
TDSQL MySQL 版(1)
SSL 证书(1)
腾讯云测试服务(1)
云推荐引擎(1)
mongodb(1)
渲染(1)
sass(1)
webpack(1)
kubernetes(1)
压力测试(1)
shell(1)
hive(1)
mybatis(1)
yum(1)
dns(1)
spring boot(1)
hashmap(1)
监督学习(1)
grep(1)
aop(1)
selenium(1)
tcp/ip(1)
单元测试(1)
scrapy(1)
jenkins(1)
socket编程(1)
安全(1)
windows(1)
hbase(1)
kafka(1)
腾讯云图数据可视化(1)
流计算 Oceanus(1)
acl(1)
admin(1)
app(1)
assertion(1)
audio(1)
base64(1)
between(1)
boolean(1)
break(1)
buffer(1)
builder(1)
default(1)
distinct(1)
double(1)
exception(1)
exists(1)
field(1)
fifo(1)
filter(1)
for循环(1)
having(1)
join(1)
limit(1)
mac(1)
matplotlib(1)
matrix(1)
model(1)
neo4j(1)
packet(1)
path(1)
permissions(1)
position(1)
push(1)
rdd(1)
return(1)
sample(1)
socket(1)
string(1)
synchronized(1)
text(1)
time(1)
timer(1)
title(1)
url(1)
web(1)
zero(1)
zk(1)
测试(1)
程序(1)
磁盘(1)
定时器(1)
读书笔记(1)
队列(1)
反射(1)
服务器(1)
后端(1)
基础(1)
客户端(1)
链表(1)
连接(1)
浏览器(1)
内存(1)
前端(1)
数据类型(1)
数组(1)
算法(1)
异常(1)
语法(1)
指针(1)
搜索文章
搜索
搜索
关闭
Python爬虫——Scrapy简介
爬虫
python
scrapy
php
Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。 Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。 Scheduler(调度器):负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。 Downloader(下载器):负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。 Item Pipeline(管道):负责将Spider(爬虫)传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。 Downloader Middlewares(下载中间件):可以扩展下载器和引擎之间通信功能的中间件。 Spider Middlewares(Spider中间件):可以扩展引擎和爬虫之间通信功能的中间件。
羊羽shine
2019-05-28
486
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档