腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SeanCheney的专栏
专栏作者
举报
192
文章
370798
阅读量
88
订阅数
订阅专栏
申请加入专栏
全部文章
python
其他
tensorflow
scrapy
编程算法
机器学习
爬虫
数据分析
神经网络
scikit-learn
分布式
https
深度学习
github
http
网络安全
html
api
人工智能
numpy
keras
sql
开源
数据库
云数据库 SQL Server
云数据库 Redis
git
存储
缓存
强化学习
监督学习
决策树
pytorch
windows
官方文档
区块链
NLP 服务
数据挖掘
c 语言
css
json
linux
文件存储
网站
卷积神经网络
tcp/ip
迁移学习
微信
数据结构
pandas
学习笔记
比特币
自动驾驶
java
php
javascript
go
.net
node.js
嵌入式
ide
搜索引擎
ubuntu
命令行工具
知识图谱
腾讯云测试服务
url 安全
游戏
gui
dns
npm
selenium
无监督学习
anaconda
安全
数据处理
系统架构
架构设计
微服务
nest
analysis
axis
kaggle
macbook
root
sort
sys
system
title
测试
基础
进程
模型
权限
数据
数据类型
系统
系统设计
线程
协程
语法
搜索文章
搜索
搜索
关闭
《这就是搜索引擎》爬虫部分摘抄总结
搜索引擎
爬虫
dns
首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取。对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检查,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列末尾,在之后的抓取调度中会下载这个URL对应的网页。如此这般,形成循环,直到待抓取URL队列为空,这代表着爬虫系统已将能够抓取的网页尽数抓完,此时完成了一轮完整的抓取过程。
SeanCheney
2018-08-16
1.4K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档