专栏首页SEO「SEO知识」如何让搜索引擎知道什么是重要的?

「SEO知识」如何让搜索引擎知道什么是重要的?

每一个昨天在成为昨天之前都曾有一个今天,每一个今天在成为今天之前都曾是我们的明天。今天,无论你是快乐还是痛苦、是成功还是失败、是得意还是失意,一切终将过去!因为,今天只有一天。昨天再好,已成永恒。

如何让搜索引擎知道什么是重要的?

时本文总计约 2200 个字左右,需要花 8 分钟以上仔细阅读。

如何让搜索引擎知道什么是重要的?

当一个搜索引擎程序抓取网站时,其实我们可以通过相关文件进行引导的。

简单的理解搜索引擎蜘蛛会通过链接来了解您网站上的信息。但他们也在浏览网站代码和目录中的特定文件,标签和元素。接下来我们来看看这些元素都有哪些。

robots.txt

搜索引擎蜘蛛会在抓取网站时,第一件事就是先抓取robots.txt文件。

对于复杂的网站,robots.txt文件是必不可少的。对于只有少数几页的小型网站,robots.txt文件可能不是必需的。没有它,搜索引擎蜘蛛就会抓取网站上的所有内容。

有两种主要方法可以使用robots.txt文件指导搜素引擎蜘蛛。

1.首先,可以使用“禁止”指令。这会引导蜘蛛忽略特定的URL文件,文件扩展名甚至整个网站的部分:

User-agent: Googlebot

Disallow: /example/

虽然disallow指令会阻止蜘蛛爬取您网站的特定部分(因此节省抓取预算),但它不一定会阻止该页面被索引并显示在搜索结果中,例如可以在此处看到:

2.另一种方法是使用 noindex 指令。Noindex某个页面或文件不会阻止它被抓取,但是,它会阻止它被索引(或从索引中删除它)。此robots.txt指令由Google非正式支持,并且完全不受Baidu/Bing支持:

User-agent:Googlebot

Noindex:/ example /

User-agent:*

Disallow:/ example /

显然,由于这些网页仍在被抓取,它们仍会使用您的抓取预算。

这是一个常常被忽略的问题:disallow指令实际上会撤消搜索引擎蜘蛛noindex标记的工作。这是因为disallow阻止蜘蛛访问网页的内容,从而阻止了看到和遵守meta标签。

另一个使用robots.txt协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当然,并不是所有蜘蛛都行为良好,有的甚至会忽略你的指令(尤其是寻找漏洞的恶意机器人)。

XML站点地图

XML站点地图帮助蜘蛛了解站点的基础结构。在这请注意,蜘蛛使用站点地图作为线索,而不是权威指南,了解如何为网站建立索引。机器人还会考虑其他因素(例如您的内部链接结构)来弄清楚您的网站是关于什么的。

使用可扩展标记语言(XML)站点地图最重要的是确保发送给搜索引擎的消息与您的robots.txt文件一致。

不要将已经通过robots.txt阻止的文件内容发送给搜素引擎; 考虑到网站的抓取预算,所以,我们千万别在这里犯错误。

第二重要的是确保XML站点地图仅包含规范URL,因为Baidu/Google会将XML站点地图视为规范化信号。

URL规范化

如果站点上有重复的内容(我们应该避免出现重复的内容),那么rel ="canonical"链接元素告诉蜘蛛哪个URL应该被认为是主版本。

如果不使用canonical标记,那么会导致网站上面不同URL但内容相同的页面被搜索引擎收录,会让搜索引擎误认为网站上面有很多重复页面,从而降低对网站的评价。

分页

正确设置rel ="next"和rel ="prev"链接元素非常重要。如果一个电子商务网站每个类别都有很多产品,如果想避免陷入搜索引擎的重复内容过滤器,那么rel = next和rel = prev就非常重要。

假设网站有50种不同的型号可供选择。在主类别页面上,用户可以查看前10个产品,每个产品都有一个产品名称和一个缩略图。然后,他们可以点击“下一页”来查看下一个10个结果,依此类推。

这些页面中的每一个都会具有相同或非常相似的标题,元描述和页面内容,因此主类别页面的头部应该有一个rel =“next”(no rel =“prev”,因为它是第一页)超文本标记语言(HTML)。将rel =“next”和rel =“prev”链接元素添加到每个后续页面会告诉抓取工具您要将这些页面用作序列。

或者,如果我们该内容有“查看全部”页面,则可以在所有分页页面上规范化为“查看全部”页面,并完全跳过rel = prev / next。不足之处在于,“查看全部”页面可能会在搜索结果中显示。如果网页加载时间过长,搜索访问者的跳出率会很高,这不是一件好事。

如果没有rel =“canonical”,rel =“next”和rel =“prev”链接元素,这些页面将相互竞争排名,并且有重复的内容过滤的风险。正确实施,rel = prev / next将指示Google将序列视为一页,或者rel = canonical将所有权重配给“查看全部”页面。(关于分页优化技巧,各位同学可以查看这篇文章:页面分页优化技巧

常见的编码问题

一个网站想要有很好的排名,是由很多因素共同决定的,其中,有一条很重要,那么就是:一个页面拥有简洁的代码很重要(Google的移动优先索引)。这样会让搜索引擎更容易辨别页面重要的内容。很有可能会因一个小错误导致蜘蛛使抓取者感到困惑,并导致搜索结果出现严重问题。

这里有几个基本的要注意的:

1.无限空间(又名蜘蛛陷阱)。糟糕的编码有时会无意中造成“无限空间”或“蜘蛛陷阱”。像指向相同内容的无尽URL或以多种方式呈现相同信息的页面等问题或包含不同日期无限日历的日历可能会导致蜘蛛卡住循环,从而可能很快耗尽您的爬取预算。

在404错误页面的超文本传输协议安全(HTTP)标头中错误地提供200状态码是另一种呈现方式,所以,正确的页面状态码也是非常重要,也可以节约爬取预算。

当一个蜘蛛遇到大量精简或重复的内容时,它最终会放弃,这可能意味着它永远无法获得最佳内容,并且会在索引中产生一堆无用的页面。

2.嵌入式内容。如果希望蜘蛛有效抓取网站的内容,最好让事情变得简单。搜索引擎蜘蛛经常遇到JavaScript,框架,Flash和异步JavaScript和XML(AJAX)的问题。尽管Baidu/Google在抓取Javascript和AJAX等格式方面做得越来越好,但使用HTML是最安全的。

一个常见的例子是使用无限滚动的网站。虽然它可能会提高可用性,但它可能会让搜索引擎难以正确抓取您的内容并将其编入索引。确保每篇文章或产品页面都有唯一的URL,并且通过传统的链接结构连接,即使它以滚动格式显示。

今天的如何让搜索引擎知道什么是重要的知识就讲到这里了。如果,哪位同学有疑问的话,可以添加我个人微信号:seoiit,一起来讨论下。

本文分享自微信公众号 - SEO答疑学堂(shareseo),作者:黄伟

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 揭秘百度搜索与页面内容大小、字符之间的关系

    黄伟SEO
  • 「知识」SEO+UX=成功

    黄伟SEO
  • 「实用性」最全的SEO优化技巧总结

    黄伟SEO
  • javascript如何监听页面刷新和页面关闭事件

    在我们的日常生活中,时常遇到这么一种情况,当我们在点击一个链接、关闭页面、表单提交时等情况,会提示我们是否确认该操作等信息。

    A梦多啦A
  • DAO设计模式的理解

    它可以实现业务逻辑与数据库访问相分离。相对来说,数据库是比较稳定的,其中DAO组件依赖于数据库系统,提供数据库访问的接口。

    Rekent
  • selenium grid搭建

    selenium grid可以同时在不同机器上测试不同浏览器,包含一个hub和至少一个node。node会发送配置信息到hub,hub记录并跟踪每一个node的...

    测试邦
  • Python Web学习笔记之图解TCP/IP协议和浅析算法

    Jetpropelledsnake21
  • Mac自带的分屏功能,非常好用

    很多时候想两个页面一起看,或者打开一个Excel一个页面,想照着写,来回切换效率非常慢,如果可以像Windows分屏就会很方便。其实Mac系统是自带分屏功能的,...

    用户2149234
  • 网络优化中怎么减轻蜘蛛的抓取?

    一般来说,让搜索引擎捕获和索引更多的内容往往是seo们头疼的问题。没有包容和索引,就谈不上排名。特别是对于一个具有一定规模的网站来说,要使网站完全被收录是一项相...

    八点半的Bruce、D
  • 贪心法--哈夫曼编码

    现有五个节点:A B C D E以及对应的权值,如何建立一颗huffman树进行哈夫曼编码?

    绝命生

扫码关注云+社区

领取腾讯云代金券