禁用robots.txt上的某些URL

文章/答案/技术大牛

发布

2回答

robots.txt

我有一个网站的URL的风格：在robots.txt中添加什么规则来禁用这些URL？我想保持公共URL为https://www.example.com/terms。

浏览 11提问于2017-01-24得票数 0

1回答

Robotstxt显示服务不可用

drupal、drupal-8、drupal-modules、robots.txt

我在我的站点上激活了robotstxt模块，但是由于某种原因，当我访问URL: example.site/robots.txt时，浏览器显示了一个文本"Service unavailable“ 有趣的是，即使我禁用了该模块，也会显示相同的消息。如何完全删除此example.site/robots.txt？

浏览 11提问于2020-10-06得票数 0

2回答

在nutch中禁用robots.txt检查

web-crawler、nutch

我想在中禁用robots.txt检查，并从网站抓取所有内容。Disable意味着在抓取或解析任何网站之前，跳过检查robot.txt。这个是可能的吗？

浏览 0提问于2013-02-15得票数 4

回答已采纳

2回答

如何在中禁用googlebot？

python、google-app-engine

昨天googlebot导致我的应用程序超过了阅读配额。如何禁用googlebot？谢谢。更新- url: /robots.txt到我的app.yaml 并创建了robots.txt文件，目录为“机器人”，但是url http://www.example.com/robots.txt不工作。

浏览 3提问于2011-11-27得票数 3

回答已采纳

1回答

.htaccess中的robots.txt和Mod重写

security、.htaccess、mod-rewrite、robots.txt

在robots.txt文件中，我将禁止我的站点的某些部分。 Disallow: /terms /data/terms_and_conditions.html 但是我已经使用.htaccess重写了URL。现在我的问题是，我应该在robots.txt中指定重写的

浏览 1提问于2010-10-02得票数 2

回答已采纳

1回答

正在读取robots.txt文件？

web-scraping、scrapy、robots.txt

我正在尝试网络抓取一个网站，他们的robots.txt文件是这样写的：User-agent: * Disallowhuur/*,*Disallow: /recreatie/*,*这是否意味着我不能抓取任何/koop/*,*的链接我真的

浏览 1提问于2019-11-03得票数 1

2回答

Bit.ly API调用在创建短URL之前/之后访问原始url

php、curl、bit.ly

我正在用Bit.ly api生成v3短url。在原始URL中，我在点击后有一些DB操作。但是当我生成bit.ly url时，它会自动命中原始的URL。$url = 'http://api.bit.ly/v3/shorten?login='.BITLYAPICALLLOGIN.'&apiKey='.BITLYAPICALLAPIKEY.'&format=json'; $s

浏览 4提问于2019-06-14得票数 0

回答已采纳

1回答

正在尝试禁止子目录中的一个页面

seo、robots.txt、subdirectory

我正在尝试禁止子目录中的一个页面Disallow:但是进程在processfolder中，而我的url显示为www.yoursite.com/ form.aspx/form.aspx 那么，如何在robots.txt中禁用form.aspx呢？上面给出的格式robots.txt：是正确<em

浏览 1提问于2016-04-29得票数 1

1回答

在HTML5模式的angular应用程序中放置sitemap.xml的位置

angularjs、node.js、seo、sitemap、googlebot

我使用HTML5模式的angular应用程序托管在节点js服务器中。我正在使用幻影js生成快照并提供快照来搜索bots.But。我不知道应该将sitemap.xml文件添加到application.If中的什么位置，我将其放在公共文件夹或其他文件夹中。由于angular routing.Please，机器人无法使用它建议一种在我的站点中添加sitemap.xml的方法

浏览 0提问于2015-11-06得票数 0

3回答

为什么谷歌网站管理员工具说，当我没有robots.txt的时候，整个网站都被robots.txt屏蔽了？

robots.txt

我向工具提交了我的WordPress站点地图。好几次了。我一直收到同样的信息：但我哪里都没有robots.txt。似乎我的整个网站和它上的每一个链接都被Googlebot屏蔽了。我使用的是WordPress的Yoast插件和Cloudflare，但我

浏览 0提问于2014-04-24得票数 1

1回答

是否需要在robots.txt中单独禁用相关子文件夹？

robots.txt

在robots.txt中禁用某些文件夹是否会禁用其相关子文件夹？folder//folder/page否则它就会匹配：因此，如果第二种情况是真的，我是否需要分别禁止第二个和后续的子文件夹

浏览 0提问于2014-04-29得票数 0

1回答

robots.txt拒绝访问具有漂亮URL的特定URL参数

robots.txt

我有一个网站，使用漂亮的urls，需要阻止某些参数从搜索使用robots.txt。当特性是url的参数时，如何使用robots.txt来阻止url。我读到你可以做这样的事：这将阻止机器人从任何在其中有功能的url。这是真的吗？但是我需要这样的网址：工作！谢谢

浏览 1提问于2013-11-11得票数 0

回答已采纳

1回答

我有一个MediaWiki 1.32.0RTL站点(希伯来语)，我想把它的一些URL隐藏在robots.txt的谷歌和必应这样的搜索引擎中。robots.txt命令Disallow: /מדיה_ויקי:*可以有两个UTF-8版本，用于RTL语言(本例中是希伯来语)，一个被解码，一个被编码；Disallow: /מדיה_ויקי:*Disallow: /%D7%9E%D7%93%D7%99%D7%94_%D7%95%D7%99%D7%

浏览 0提问于2019-07-25得票数 4

回答已采纳

3回答

隐藏特定文件夹及其子文件夹和文件？

seo、robots.txt

我想在public_html中隐藏一个名为( robots.txt )的文件夹，使搜索引擎看不到它的所有子文件夹和文件，我是否必须将文件放在根文件夹(/)中，并像下面这样处理beta中的内容Disallow: /public_html/beta将robots.txt放在public_html中，并按如下所示执行内容Disallow: /beta

浏览 1提问于2013-01-10得票数 0

1回答

Robots.txt禁用异常情况下的查询参数扫描

regex、.htaccess、robots.txt

我正在实现一些SEO更改，包括robots.txt更改，我正在解决这个问题。我需要禁用(或不允许准确地说)包含一些查询URL参数的每个URL (？我需要允许针对特定子URL的特定查询参数。所以让我说我需要允许/picture?path=XY。这个应该允许，但例如/-other?path=XY，而不是，所以/picture?other_param=XY ( /picture是可以的，但是没有仅命名为param<e

浏览 2提问于2020-03-17得票数 2

回答已采纳

1回答

无法从清漆缓存中排除robot.txt

varnish、varnish-vcl、varnish-4

我尝试使用default.vcl中的以下几行代码从清漆缓存中排除robots.txt return(pass);现在，在devtools中的Network选项卡中，它显示Age: 0和X-Cache:MISS。但是，由于某些原因，varnish并不排除文件不被缓存。我甚至从它所在的位置删除了文件。但它仍然加载url curl -X

浏览 5提问于2017-07-29得票数 0

1回答

为什么我的UTM链接会显示在Google搜索结果中？

google-analytics、utm-tracking、google-ads-api

为什么我的推荐跟踪链接在Google搜索中显示为此站点的索引页面？(上面的链接是为了显示它们)

浏览 5提问于2020-04-16得票数 0

1回答

网络爬虫是否遵循robots.txt* urls或标记？*

javascript、url-rewriting、web-crawler、robots.txt

我有一个基于javascript的网站。具体来说，没有<a>标记。当单击某些按钮时，动态地将内容插入DOM树中，然后使用javascript更改URL以表示更新。所以，我的问题是，如果我在我的robots.txt中有一个链接列表，允许的网络爬虫(Google，Bing等)会直接访问robots.txt中的链接，还是会遵循下载的网站中的a链接，并在robots.txt因为

浏览 0提问于2017-01-23得票数 0

回答已采纳

1回答

为什么robots.txt的含量在手工访问时以及通过ChromeDriver和Chrome通过Selenium访问时有所不同？

selenium、google-chrome、web-crawler、selenium-chromedriver、robots.txt

我正在努力尊重robots.txt文件，当我在网络上爬行时，我遇到了一些奇怪的事情。我要访问的robots.txt URL是：User-agent: *但是，如果我使用Internet或SeleniumWebDriver (ChromeDriver)打开此链接，则会得到以下内容：# robots.txt# This file is to prevent the cr

浏览 1提问于2019-03-22得票数 1

3回答

谷歌正在为未发布或网站秘密部分的非预期内容建立索引。

seo、robots.txt、google-index、noindex

谷歌正在为我的网站中没有链接的部分建立索引，这是我正在开发的一个移动版网站-- www.domain.com/m/ <--注意M。这怎么可能？我唯一能想到的就是Google从获得URL。我的开发站点dev.domain.com也有同样的问题--我已经通过重新启用htpasswd修复了这个问题。有过一次，但出于某些测试目的而禁用了它。我知道我可以用robots.txt来跳过索引，但是总有人告

浏览 0提问于2011-06-02得票数 3

点击加载更多