http 状态码
爬虫
搜索引擎入口
权重
robots
http 状态码
我们访问任何网页,服务器都会生成网站的日志。在日志里有一个 3 位数字代码,这 3 位数字代码就记录了我们访问的动作(如,正常访问/访问被拒绝/无法打开该网页)。这 3 位数字代码就是 http 状态码。
http 状态码是服务器和客户端之间交流信息的语言。
客户端包含:用户、爬虫
HTTP 协议状态码表示的意思:
2xx(请求已成功被服务器接收)
200:服务器已成功处理了请求并提供了请求的网页。访问正常。
204:服务器成功处理了请求,但没有返回任何内容。
3xx(为完成请求客户需进一步细化请求:重定向)
301:请求的网页已永久移动到新位置。
302:请求的网页临时移动到新位置。
304:如果网页自请求者上次请求后没有更新。
4xx(客户错误)
400:服务器不理解请求的语法。
403:服务器拒绝请求。
404:服务器找不到请求的网页。错误页面。
5xx(服务器错误)
500:服务器遇到错误,无法完成请求。
503:服务器目前无法使用(由于超载或停机维护)。这只是暂时状态。
HTTP 状态查询工具
百度直接搜索 “http 状态查询” 可以搜出来一大堆~
对 SEO 的意义
通过状态码可以查看搜索引擎爬虫在网站爬取情况。
通过状态码可以看网站出现什么问题。
爬虫
网络爬虫(也叫网络蜘蛛)是一种自动获取网页内容的程序。
爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤、并建立索引,以便之后的用户能够查询到这个页面。
爬虫与搜索引擎的关系
爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。
工作流程
爬虫通过漫游的形式进行抓取,爬到一个页面后,看到一个链接,然后顺着那个链接爬到另一个页面。爬虫是不停地从一个页面跳到另一个页面的。
它一边下载这个网页,一边在提取这个网页的链接。页面上所有链接都放在一个公用的 “待抓取列表” 里。
爬虫在访问网站前不会去判断网页,但会有优先级的划分:尽可能不抓重复的内容,尽量抓重要内容(如网站的公共部分)。
搜索引擎同时会派出多个爬虫进行多线程抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析、过滤(去重),并建立索引,以便之后 的查询和检索。
根据搜索引擎来进行分类
百度爬虫:Baiduspider 百度蜘蛛
谷歌爬虫:Googlebot 谷歌机器人
soso爬虫:sosospider
搜索引擎入口
概念
向搜索引擎提交网站,让搜索引擎快速收录你的新网站。
各大搜索引擎网站登录入口
百度:https://ziyuan.baidu.com/linksubmit/url
Google:https://www.google.com/webmasters/tools/submit-url
Bing:https://www.bing.com/toolbox/submit-site-url
DmozTools:http://dmoztools.net/World/Chinese_Simplified/
Coodir:http://www.coodir.com/accounts/addsite.asp
Alexa:https://support.alexa.com/hc/en-us/articles/200450194
搜狗:http://fankui.help.sogou.com/index.php/web/web/index?type=4
Soso:http://help.soso.com/help_web_09.shtml
360:http://info.so.360.cn/site_submit.html
权重
(一)权重
搜索引擎对一个网站的信任度。
决定一个网站权重的因素包含一个网站的很多方面,至少有 200 多个方面(谷歌数据)。
权重没有特定的工具可以测量。
(二)PR
PR 值全称为 PageRank(网页级别)
是 Google 用于标识网页的等级、重要性的一种方法(是 Google 用来衡量网站好坏的重要标准)。
仅是谷歌评价网页的一项参数值,且在权重计算中参考价值呈下降趋势。
robots
robots 协议
告诉搜索引擎爬虫什么可以抓取、什么不可以抓取。
功能
屏蔽无用的信息,节省服务器的带宽资源,提升收录。
使用方法
可以自己在网站根目录下创建 robots.txt 文件;也可以用搜索引擎自带的工具生成,然后再上传到网站根目录下。
更多分享
共享笔记
效率工具
精品小众电影
领取专属 10元无门槛券
私享最新 技术干货