前面我们介绍了 robots.txt 和在 WordPress 博客中如何使用,robots.txt 文件是用来限制整个站点或者目录的搜索引擎访问情况,如果要针对一个个具体的页面,怎么办呢?...="keywords" content="WordPress 果酱, robots, robots meta" /> max-image-preview:[setting] 对于此网页在搜索结果中的图片预览,设置尺寸上限。...示例: WordPress 中的应用 WordPress 5.7 之后,WordPress...另外如果站点不公开的话或者在 WordPress 搜索页面,WordPress 会在 robots meta 中输出 noindex 的指令。 WordPress 怎么实现的呢?
php $my_query = new WP_Query('category_name=featured&showposts=1'); while ($my_query->have_posts()) :...Reducing Duplicate Content on WordPress Blogs Duplicate Content Cure Plugin for Wordpress, 这是一个非常有效的...SEO 插件,它能阻止搜索引擎索引含有重复内容的 WordPress 博客的页面,如存档,分类页面。...它是通过添加 noindex,follow 这样的 meta 标签实现的。... 翻译自 Most Desired WordPress Hacks: 11 Common Requests and
读取图片文件中的meta信息: com.drewnoakes metadata-extractor...} } } } } 根据经纬度获取附近位置信息...admName"); String addr = (String) address.get("addr"); String name...(name)) { sb.append(admName.replaceAll(",", ""))....append(addr).append(" ").append(name); break; }
共有四种组合: <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> <META... NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> 其中: <META NAME...="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">; <META NAME="ROBOTS" CONTENT=..."NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE"> 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots...每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
要确保网站某些目录或页面不被收录,需要正确使用 robots 文件或Meta Robots 标签来实现网站的禁止收录机制。...最简单的 meta robots 标签格式为: 效果是禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。... 效果是禁止索引本页面,但允许蜘蛛跟踪页面上的链接,也可以传递权重。...:不要使用开放目录中的标题和描述 百度支持:Nofollow和Noarchive 只有禁止索引时,使用meta robots才有意义。...使用了 noindex meat robots 标签的页面会被抓取,但不会被索引,页面URL也不会出现在搜索结果中,这一点与 robots 文件不同。
ROBOTS元标签最佳SEO实践操作 ROBOTS元标签是HTML标签,如果查看网页源码,在HEAD部分找到它,看起来像这样: <meta name=”robots” content=”noindex...ROBOTS标签“CONTENT”属性有效值为: “INDEX” “NOINDEX” “FOLLOW” “NOFOLLOW” 看起来非常直观清晰,例如: META NAME="ROBOTS" CONTENT...="NOINDEX, FOLLOW" META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW" META NAME="ROBOTS" CONTENT="NOINDEX,...NOFOLLOW" META NAME="ROBOTS" CONTENT="NOARCHIVE" META NAME="GOOGLEBOT" CONTENT="NOSNIPPET" ROBOTS元标签值解释...必备的社交元标签 文章类型的TWITTER和FACEBOOK社交媒体元标签: <meta
Robots META标签的写法: Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。...这样,一共有四种组合: <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”...> <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”> <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”> 其中...<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>; <META NAME=”ROBOTS...” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”> 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则
方法 1.还是利用robots.txt文件,内容如下(不允许网站根下所有内容) User-agent: * Disallow: / 2.在网页代码里添加 meta 标签来实现 拦截所有搜索引擎收录和索引网页... 只拦截百度蜘蛛,而允许其他搜索引擎索引收录 允许搜索引擎收录索引网页,但禁止继续追踪页面链接 允许搜索引擎收录索引网页,但禁止收录网页上的图片... 可以根据需要将上面的代码加入到自己的网页 head 头部中。...如果你的页面先前被收录了,那么下次搜索引擎再来的时候会给你移除。
> 比如,如果我要禁止搜索引擎收录带 www 的张戈博客,那么代码如下: 不许抓取本页,但是可以顺着本页抓取索引别的链接 <META NAME="ROBOTS" CONTENT...所以,将 robots 和 META 这 2 种方法结合一下,新站架设前可以这样设置: 无须设置 301 重定向,先在 nginx 配置文件中,将监听www.zhangge.net(非首选域名)的配置修改如下...> 如此,就双管齐下的做好了禁止搜索引擎收录新站非首选域名的设置!
:/ Robots Meta Tag 对于不能上传Robots.txt文件的用户,我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。... robots-term是一系列逗号分隔的字符,主要有以下几个值:noindex,nofollow,index...,follow,all 下面来简单解释一下各自的含义: noindex:搜索引擎不会为页面建立索引,但是允许页面上的链接被追踪; nofollow:搜索引擎不会追踪页面中的链接,但是允许搜索引擎收录该页面...; index:搜索引擎将把该页面加入到搜索服务中; follow:搜索引擎会从该页面去查找其他的页面; all:搜索引擎会执行上面两种操作; 如果Meta标签缺失,或者robots-term没有指定明确的值...,那么默认是index,follow,如果在meta中指定了all,那么其他的所有值都将被覆盖,不管all出现在什么位置 最后,再贴一个比较规范的robots.txt来,以供学习: # robots.txt
↑↑↑ 为IE设置兼容模式为edge ↑↑...↑ 页面关键词、描述 ↑↑↑ robots用来告诉爬虫哪些页面需要索引,哪些页面不需要索引。...content的参数有all,none,index,noindex,follow,nofollow。默认是all。... ↑↑↑ 用于标注网页作者 ↑↑↑...图标的位置 ↑↑↑ 网页将在设定的30秒后自动刷新 <meta http-equiv="refresh" content
我们可以借助元信息标签meta来实现: 爬虫控制指令 NOINDEX 告诉爬虫不对页面内容进行处理,忽略文档。... NOFLLOW 告诉爬虫不要爬这个页面的任何外连接。... FLLOW 告诉爬虫可以爬这个页面的任何外连接。... NOARCHIVE 告诉爬虫不应该缓存这个页面的本地副本。... ALL 等价于 INDEX, FLLOW。 NONE 等价于 NOINDEX, NOFLLOW。
”> < meta http-equiv=”Content-Type” Con_TENT=”text/html; charset=gb2312″> < meta name=”keywords” con_tent...content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。...这样,一共有四种组合: < meta NAME=”ROBOTS” Con_TENT=”INDEX,FOLLOW”> < meta NAME=”ROBOTS” Con_TENT=”NOINDEX,FOLLOW...”> < meta NAME=”ROBOTS” Con_TENT=”INDEX,NOFOLLOW”> < meta NAME=”ROBOTS” Con_TENT=”NOINDEX,NOFOLLOW”...NAME=”ROBOTS” Con_TENT=”NOINDEX,NOFOLLOW”>可以写成 < meta NAME=”ROBOTS” Con_TENT=”NONE”> 需要注意的是:上述的robots.txt
与之间,加入代码,此标记禁止搜索引擎抓取网站并显示网页快照。...和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效...如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的: 下面列出一些常用的代码组合: :可以抓取本页,而且可以顺着本页继续索引别的链接 :不许抓取本页...,但是可以顺着本页抓取索引别的链接 :可以抓取本页,但是不许顺着本页抓取索引别的链接 <META NAME=”ROBOTS
robots 用于告诉网页爬虫如何索引网页 它有以下几种参数值: all:对索引编制或内容显示无任何限制, 该指令为默认值 noindex...: 告诉爬虫不要跟踪页面上的任何链接以及资源 noimageindex: 告诉爬虫不要索引页面上的任何图片 none: 相当于同时使用 noindex 和 nofollow noarchive:...不在搜索结果中显示缓存链接。...nosnippet: 不在搜索结果中显示该网页的文本摘要或视频预览 copyright copyright 用于标注版权信息 <meta name="copyright" content="jiafangchang...max-age= 缓存存储的最大周期,超过这个周期被认为过期 <meta name="copyright" content="jiafangchang
中,我们大家比较熟悉的如: 说明编辑工具; <meta name="...Name主要用于描述网页, 对应于content, 以便于搜索引擎查找、分类(目前几乎所有的搜索引擎都使用网上机器人自动查找Meta值来给你的网页分类)。...当然你也可以不要搜索引擎检索,可用: 来确定..."则可查询页上的链接; 设定为"noindex"时文件不检索,但可被查询链接; 设定为"nofollow"则表示文件不被检索,但可查询页上的链接....meta还有很多功能, 如大家关心的"如何在搜索引擎中,被放在搜索结果前面的位置"(http://vancouver-webpages.com/vwbot/mk-metas.html).
nofollow用法 告诉搜索引擎不要抓取网页上的所有外部以及内部链接 将"nofollow"放在超链接中,告诉搜索引擎不要抓取... 可以抓取本页,但是不许顺着本页抓取索引别的链接 禁止所有的搜索引擎建立快照 2.3 title 谷歌会限制标题为70个字符 标题 2.4 Meta Content...安卓中支持,当 target-densitydpi=device-dpi 时, css中的1px会等于物理像素中的1px。 <!
) Pragma(cache模式) 禁止浏览器从本地计算机的缓存中访问页面内容...content的参数有 all(默认值),none,index,noindex,follow,nofollow。...all:文件将被检索,且页面上的链接可以被查询; none:文件将不被检索,且页面上的链接不可以被查询; index:文件将被检索; follow:页面上的链接可以被查询; noindex:文件将不被检索... ->下面是声明其它搜索引擎的搜索模式...
,如过期,内容改变等校验规则 no-store :所有内容都不会被缓存到缓存或 Internet 临时文件中 (设置了貌似无效,还是说不会出现在响应头吗?...-- robots 用来告诉搜索机器人哪些页面需要被检索 --> <!
robots.txt的补充 如果你没有对网站根目录的写入权限(无法建立robots.txt文件),或你想要某个指定的网页不被搜索引擎收录,可以使用元标签阻止爬虫访问: robots元标记的默认值为”index,follow”,它的取值可以是(来自Google站长帮助): noindex 防止网页被编入索引。...现实中的robots.txt 淘宝屏蔽百度 淘宝屏蔽了百度抓取(2008年9月),http://www.taobao.com/robots.txt的内容: User-agent: Baiduspider
领取专属 10元无门槛券
手把手带您无忧上云