SEO 基础 技术

http 状态码

爬虫

搜索引擎入口

权重

robots

http 状态码

我们访问任何网页,服务器都会生成网站的日志。在日志里有一个 3 位数字代码,这 3 位数字代码就记录了我们访问的动作(如,正常访问/访问被拒绝/无法打开该网页)。这 3 位数字代码就是 http 状态码。

http 状态码是服务器和客户端之间交流信息的语言。

客户端包含:用户、爬虫

HTTP 协议状态码表示的意思:

2xx(请求已成功被服务器接收)

200:服务器已成功处理了请求并提供了请求的网页。访问正常。

204:服务器成功处理了请求,但没有返回任何内容。

3xx(为完成请求客户需进一步细化请求:重定向)

301:请求的网页已永久移动到新位置。

302:请求的网页临时移动到新位置。

304:如果网页自请求者上次请求后没有更新。

4xx(客户错误)

400:服务器不理解请求的语法。

403:服务器拒绝请求。

404:服务器找不到请求的网页。错误页面。

5xx(服务器错误)

500:服务器遇到错误,无法完成请求。

503:服务器目前无法使用(由于超载或停机维护)。这只是暂时状态。

HTTP 状态查询工具

百度直接搜索 “http 状态查询” 可以搜出来一大堆~

对 SEO 的意义

通过状态码可以查看搜索引擎爬虫在网站爬取情况。

通过状态码可以看网站出现什么问题。

爬虫

网络爬虫(也叫网络蜘蛛)是一种自动获取网页内容的程序。

爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤、并建立索引,以便之后的用户能够查询到这个页面。

爬虫与搜索引擎的关系

爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。

工作流程

爬虫通过漫游的形式进行抓取,爬到一个页面后,看到一个链接,然后顺着那个链接爬到另一个页面。爬虫是不停地从一个页面跳到另一个页面的。

它一边下载这个网页,一边在提取这个网页的链接。页面上所有链接都放在一个公用的 “待抓取列表” 里。

爬虫在访问网站前不会去判断网页,但会有优先级的划分:尽可能不抓重复的内容,尽量抓重要内容(如网站的公共部分)。

搜索引擎同时会派出多个爬虫进行多线程抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析、过滤(去重),并建立索引,以便之后 的查询和检索。

根据搜索引擎来进行分类

百度爬虫:Baiduspider 百度蜘蛛

谷歌爬虫:Googlebot 谷歌机器人

soso爬虫:sosospider

搜索引擎入口

概念

向搜索引擎提交网站,让搜索引擎快速收录你的新网站。

各大搜索引擎网站登录入口

百度:https://ziyuan.baidu.com/linksubmit/url

Google:https://www.google.com/webmasters/tools/submit-url

Bing:https://www.bing.com/toolbox/submit-site-url

DmozTools:http://dmoztools.net/World/Chinese_Simplified/

Coodir:http://www.coodir.com/accounts/addsite.asp

Alexa:https://support.alexa.com/hc/en-us/articles/200450194

搜狗:http://fankui.help.sogou.com/index.php/web/web/index?type=4

Soso:http://help.soso.com/help_web_09.shtml

360:http://info.so.360.cn/site_submit.html

权重

(一)权重

搜索引擎对一个网站的信任度。

决定一个网站权重的因素包含一个网站的很多方面,至少有 200 多个方面(谷歌数据)。

权重没有特定的工具可以测量。

(二)PR

PR 值全称为 PageRank(网页级别)

是 Google 用于标识网页的等级、重要性的一种方法(是 Google 用来衡量网站好坏的重要标准)。

仅是谷歌评价网页的一项参数值,且在权重计算中参考价值呈下降趋势。

robots

robots 协议

告诉搜索引擎爬虫什么可以抓取、什么不可以抓取。

功能

屏蔽无用的信息,节省服务器的带宽资源,提升收录。

使用方法

可以自己在网站根目录下创建 robots.txt 文件;也可以用搜索引擎自带的工具生成,然后再上传到网站根目录下。

更多分享

共享笔记

效率工具

精品小众电影

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180825A1LAVS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券