我感兴趣的是如何防止一个网站的一个页面不被谷歌索引,或任何其他机器人。在我的脚本中,我有一个包含第三方物流文件的模板,Index.tpl,Header.tpl……那么我该如何告诉谷歌不要索引页面: login.tpl
谢谢
发布于 2011-03-23 20:39:50
如果您不希望爬虫对特定的URL (或目录)进行索引,一种简单的解决方案是使用robots.txt
文件--它允许您指定哪些内容可以索引,哪些不可以索引。
有关更多信息,请参阅
例如,如果您希望crawler不索引/my-page.php
URL,则可以在robots.txt
文件中使用类似以下内容:
User-agent: *
Disallow: /my-page.php
作为附注:不应该对最终用户可见的文件(如包含文件、库、非解释的模板等)不应该由您的not服务器提供服务:应该没有人可以访问这些服务器。
如果使用Apache,使用给定文件夹中的.htaccess
文件(如果启用了此功能),则可以阻止Apache提供该文件夹中的任何文件:
Deny from All
注意: Apache将不会从包含具有该内容的.htaccess
文件的目录中获得任何服务!
发布于 2013-07-23 04:35:41
这是不正确的。robots.txt不会告诉爬虫程序应该索引什么,不应该索引什么。这就是使用meta-robots标签的目的。让它不服务于索引,那么你就很棒。有关示例和进一步阅读,请参阅:http://yoast.com/x-robots-tag-play/
发布于 2016-02-23 17:45:30
我知道我的答案来晚了,但这也可以帮助其他人,下面是你将看到的更准确的答案。
我正在考虑你的网站正在使用wordpress。
你可以使用wordpress的“自定义域”选项。(你可以找到详细信息here)
您需要做的第一件事是将以下代码添加到主题的header.php模板的head部分。
并复制以下代码
<?php
$noindex = get_post_meta($post->ID, 'noindex-page', true);
if ($noindex) {
echo '<meta name="robots" content="noindex,follow" />';
}
?>
现在,您需要做的就是指定一个名为noindex-page的自定义字段,并为其赋值。你输入什么并不重要。您所需要做的就是确保在字段中输入了某些内容,以便自定义字段noindex-page在您在头文件中指定的代码中返回为true。
请记住这一点,这也适用于帖子
https://stackoverflow.com/questions/5405325
复制相似问题