策略-增加收录

影响收录的因素

搜索引擎爬虫爬取方式/收录原理

影响爬虫抓取的内部因素

影响爬虫抓取的外部因素

技术对收录的影响

内容对收录的影响

影响收录的因素

如果你的网站还没有被收录,请检查下爬虫抓取量和页面质量。

搜索引擎爬虫爬取方式、收录原理

如果想要更详细了解爬虫可以试用一些免费的 “网站镜像工具”,它们的工作原理都是一样的。

收录原理(过程)

首先爬取 robots.txt 文件(了解哪些文件是可以爬取的);

访问首页;

访问栏目页;

访问内容页;

同时还会爬取 css/js 文件,目的是为了判别代码是否完整、是否作弊等。

影响爬虫抓取的内部因素

(一)网站速度影响爬虫访问

机房 - DNS 服务器 - CDN - 出口带宽 - 硬件 - 操作系统 - 服务器软件 -程序

(二)nofollow 标签的使用控制爬虫抓取

nofollow 是指不追踪此链接。

nofollow 掉每个页面重复出现的链接和对 SEO 无价值页面,减少爬虫重复抓取每个页面内的链接,提高爬虫抓取效率,增强对重要页面的抓取。

使用方法:rel="nofollow"

使用火狐浏览器插件 Highlight NoFollow links 可以查看网站是否使用 nofollow。

(三)其他影响爬虫抓取的因素

防火墙规则、防攻击设置、防止采集设置规则:一个网站访问 n 次后,自动断开,爬虫被拒。

分隔硬盘:在服务器下安装多个虚拟机,硬盘转速慢,爬虫访问不到网页。

影响爬虫抓取的外部因素

(一)外部链接

外链的两个作用:吸引爬虫抓取,提升排名。

注意要给每个网页加外链,不要都指向首页。

注意外链的相关性、流行性及广泛性。

(二)文章

注意文章的原创度、更新频率、独特性。

原创文章一定会收录,只是时间问题。

(三)权重

权重是指搜索引擎对网站的信任程度。

权重高网站爬虫数量就会越多、抓取也越及时。权重高的网站有爬虫长期 “潜伏”。

(四)网站地图

网站地图会促进爬虫爬取,增进收录重要因素。

(五)PR 值

PR 值是谷歌对网站质量的衡量标准,但对 SEO 作用不大,供参考。

技术对收录的影响

爬虫抓取网页时可以看到网页 URL、HTML 代码及 head 信息。

(一)URL 规范化

尽量让网页静态化(或伪静态)、并让每个网页只对应一个 URL。

如果多个 URL 都能访问同样内容:

搜索引擎会选一种 URL 为标准,可能会和正版不同;

用户可能为同一网页的不同 URL 作推荐,也就分散了该网页的权重。

如果已经存在多 URL 的建议:

在系统中只使用正常的 URL,不让用户接触到非正常的 URL;

不要把 session id、统计代码等不必要的内容放在 URL 中;

不同形式的 URL,用 301 永久跳转到正常形式;

防止用户输错而启用的备用域名,用 301 永久跳转到主域名;

使用 robots.txt 禁止 Baiduspider 抓取你不想向用户展现的形式。

URL 中最好带上关键词(不推荐用中文,尽量用英文或拼音)。

(二)尽量符合 W3C 标准

HTML 代码要符合标准。

结构层、表现层、行为层标签要完整。

(三)head 信息要正确

查询 head 信息可以使用抓包工具:httpwatch

了解工具中的几个参数:

Accept */*

表示能够接受的返回数据的范围,*/* 表示所有。

Accept-Language zh-cn

表示能够接受的返回数据的语言。

Accept-Encoding gaip,deflate

Accept-Encoding 表明了浏览器可以接受的除了纯文本外的内容编码类型。如 gzip 压缩还是 deflate 压缩内容。

Last-Modified Fri,04 Jan 2018 01:01:00 GMT

指定被请求资源上次被修改的日期和时间节省带宽,减少重复抓取。

Server Apache

一种标明 Web 服务器软件及其版本号的头标。

content-length

内容长度(通过文字长度判断是否更新过)。但不准,如果文字一样就无法判断了。

内容对收录的影响

(一)原创性

原创性是影响网站权重最重要的因素。

原创影响权重、权重影响收录、收录影响排名、排名影响流量;

搜索引擎现在对伪原创的识别越来越智能。

(二)重复性

页面重复是 SEO 负面因素。

转载或采集的页面内容和之前页面都一样、URL 不统一也是重复、网页相似度就算重复页面。

重复页面与总页面比例要低于 30%(大量重复会被惩罚)。

避免重复的方法:在网站的正文部分多调用一些随机调用增加文章内容、URL 唯一化等。

第一阶段

名词解释

域名

服务器

网站程序

SEO 基础

SEO 应用

第二阶段

SEO 模型

排名

建站

内容

外链

心态

程序

第三阶段

SEO 系统

算法

服务器

W3C

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180912A00XW600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券