正在读取robots.txt文件

我已将robots.txt设置为不允许此文件夹。由于某些原因，一些结果仍然显示出来。我认为这可能是因为我最初没有设置robots.txt，而且谷歌还没有删除其中的一些。现在，我担心这个文件夹中个别joomla站点中的robots.txt文件会导致Google继续对它们进行索引。理想情况下，我想阻止这种情况的发生，因为我不想记住，当robots.txt运行时，我必须把它转回来跟随它(以防万一)。是否有一种方法可以使用该文件夹上方的文件

浏览 1提问于2013-10-21得票数 0

2回答

Pythonrobot解析器模块不会加载“robots.txt”

、、、

我正在编写一个非常简单的web爬虫，并试图解析'robots.txt'文件。我在标准库中找到了robotparser模块，它应该就是这样做的。我正在使用Python2.7.2。不幸的是，我的代码无法正确加载'robots.txt'文件，我也不知道为什么。解析器读取一个空白的'robots.txt'文件，而不是指定的URL，并将True返回到所有can_fetch()查询。它看

浏览 2提问于2012-04-05得票数 3

回答已采纳

1回答

robots.txt htaccess屏蔽谷歌

、、

在我的.htaccess文件中有：Order deny,allow</Files>robots.txt Statushttp://mysite/robots.txt 如何修改.htaccess以

浏览 6提问于2011-09-20得票数 4

回答已采纳

3回答

我的CakePHP应用程序该如何处理CakePHP呢？

、、

Exception Attributes: array ( 'plugin' => NULL,Request URL: /robots.txt我使用的是CakePHP 2.4.2这是我的robots.txt。我还有什么要补充的吗？我把它放在webroot里了。Disallow: /admin/

浏览 1提问于2014-02-28得票数 5

2回答

如何从robots.txt文件中读取站点地图url文本

、、、、

我想阅读robots.txt文件(www.abc d.com/robots.txt)的文本，其中包含来自我的C#应用程序的sitemap。如果robots.txt文件中有sitemap，我必须使用if来生成警报，然后它将显示是，并且它不包含sitemap，那么它将显示no。Robots.txt文件文本如下所示：User-agent: *Crawl-delay: 10 # Website Sitemap

浏览 4提问于2013-09-16得票数 1

回答已采纳

1回答

如何保护目录中的文件？

、

我正在为我的一个客户创建一个网站。假设这是我的网站: www.website.com我在子域中也有robots.txt文件，比如-> 。如果有人直接输入这个url ""，他们就可以读取我robots.txt文件。如果我想保护这些文件，我应该怎么做？

浏览 2提问于2015-01-11得票数 0

2回答

我可以将robots.txt放在上下文路径中并提供301重定向吗？

、

robots.txt可以在www.example.com/abc/robots.txt上找到，我在webserver中给出了301重定向，将www.example.com/robots.txt重定向到www.example.com/abc/robots.txt。我的问题是，搜索引擎是否能够读取robots.txt文件，因为它有301重定向？

浏览 3提问于2017-04-06得票数 0

1回答

逐行读取robot.txt

、、、

我正在尝试使用jsoup读取一个robot.txt文件。我想逐行读取这个文件，并确定一行是否不允许/允许/useragent/sitemap。有办法逐行读取这个文件吗？谢谢!

浏览 2提问于2014-09-08得票数 0

回答已采纳

2回答

如何不允许robots.txt中的部分字符串用于Wordpress

、、

我的wordpress robots.txt文件中有以下设置。因为某种原因，允许的部分不起作用？根据谷歌网站管理员的工具，它不喜欢以下内容。有人能告诉我为什么吗？

浏览 3提问于2013-10-29得票数 0

回答已采纳

1回答

如何阻止机器人爬行或索引角应用程序

、、

我会简单地在我的<meta>页面上添加我的index.html标记，为了更好的衡量，在根中添加一个robots.txt文件？这些是我的元标签：<meta name="googlebot" content="noindex" />User-agent: * Di

浏览 1提问于2019-10-28得票数 5

1回答

灯塔读取我的索引而不是robots.txt

、

我想在我的React应用程序上使用chrome审计工具，但它总是说我的robots.txt文件无效。问题是，这个文件看起来非常好，只是它读取的不是robots.txt，而是我的index.html文件，因此导致了这个错误：这两个文件都在我的/public文件夹中，那么为什么要读取索引文件呢

浏览 1提问于2018-09-07得票数 5

1回答

旧的robots.txt文件不更改，无法更新到当前的robots.txt

、

当我的wordpress网站正在制作时，我创建了一个robots.txt文件来禁止一切。当站点准备就绪时，我通过cpanel删除了robots.txt文件，从来没有考虑过这个问题。最近，我意识到谷歌搜索结果并没有显示这个网站，经过进一步的调查，我意识到旧的robots.txt文件仍然存在(尽管我无法在我的根目录中找到这个文件)。http://youngauthors.my/robots.txt 我在根<e

浏览 0提问于2017-11-13得票数 0

回答已采纳

7回答

robots.txt；什么编码？

、

我即将创建一个robots.txt文件。我应该如何保存文件？UTF8，ANSI还是什么？在文件中，我指定了一个站点地图位置。

浏览 10提问于2010-09-28得票数 11

回答已采纳

1回答

Python RobotFileParser挂起读取

、

我正在尝试读取robots.txt文件，并弄清楚机器人是否允许读取特定的页面。import urllib.request rp = urobot.RobotFileParser() rp.set_url(url + "/robots.txt

浏览 0提问于2020-09-23得票数 0

回答已采纳

1回答

有什么正确的方法来阻止访问者从一个特定的文件夹，但允许我的IP看到它(PHP)？

、、

除了我的IP之外，我能阻止每个人只访问那个文件夹/部分吗？如果是这样的话，它是通过htaccess，robots.txt，两者的组合，或者其他方式完成的吗？对于访客，我可以在我的htaccess中添加以下内容：deny from all但我可以调整一下，说除了"fr“文件夹之外我知道对于机器人(即谷歌)，如果我想阻止机器人访问，这个robots.txt文件将在我的主站点的根目录上使用： User

浏览 0提问于2017-12-04得票数 0

回答已采纳

1回答