腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SeanCheney的专栏
专栏作者
举报
192
文章
371578
阅读量
88
订阅数
订阅专栏
申请加入专栏
全部文章(192)
python(68)
其他(36)
tensorflow(21)
scrapy(21)
编程算法(18)
机器学习(17)
爬虫(15)
数据分析(15)
神经网络(14)
scikit-learn(13)
分布式(12)
https(10)
深度学习(9)
github(7)
http(7)
网络安全(7)
html(6)
api(6)
人工智能(6)
numpy(5)
keras(5)
sql(4)
开源(4)
数据库(3)
云数据库 SQL Server(3)
云数据库 Redis(3)
git(3)
存储(3)
缓存(3)
强化学习(3)
监督学习(3)
决策树(3)
pytorch(3)
windows(3)
官方文档(2)
区块链(2)
NLP 服务(2)
数据挖掘(2)
c 语言(2)
css(2)
json(2)
linux(2)
文件存储(2)
网站(2)
卷积神经网络(2)
tcp/ip(2)
迁移学习(2)
微信(2)
数据结构(2)
pandas(2)
学习笔记(2)
比特币(1)
自动驾驶(1)
java(1)
php(1)
javascript(1)
go(1)
.net(1)
node.js(1)
嵌入式(1)
ide(1)
搜索引擎(1)
ubuntu(1)
命令行工具(1)
知识图谱(1)
腾讯云测试服务(1)
url 安全(1)
游戏(1)
gui(1)
dns(1)
npm(1)
selenium(1)
无监督学习(1)
anaconda(1)
安全(1)
数据处理(1)
系统架构(1)
架构设计(1)
微服务(1)
nest(1)
analysis(1)
axis(1)
kaggle(1)
macbook(1)
root(1)
sort(1)
sys(1)
system(1)
title(1)
测试(1)
基础(1)
进程(1)
模型(1)
权限(1)
数据(1)
数据类型(1)
系统(1)
系统设计(1)
线程(1)
协程(1)
语法(1)
搜索文章
搜索
搜索
关闭
《这就是搜索引擎》爬虫部分摘抄总结
搜索引擎
爬虫
dns
首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取。对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检查,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列末尾,在之后的抓取调度中会下载这个URL对应的网页。如此这般,形成循环,直到待抓取URL队列为空,这代表着爬虫系统已将能够抓取的网页尽数抓完,此时完成了一轮完整的抓取过程。
SeanCheney
2018-08-16
1.4K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档