腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
禁用
robots.txt
上
的
某些
URL
robots.txt
我有一个网站
的
URL
的
风格:在
robots.txt
中添加什么规则来
禁用
这些
URL
?我想保持公共
URL
为https://www.example.com/terms。
浏览 11
提问于2017-01-24
得票数 0
1
回答
Robotstxt显示服务不可用
drupal
、
drupal-8
、
drupal-modules
、
robots.txt
我在我
的
站点
上
激活了robotstxt模块,但是由于某种原因,当我访问
URL
: example.site/
robots.txt
时,浏览器显示了一个文本"Service unavailable“ 有趣
的
是,即使我
禁用
了该模块,也会显示相同
的
消息。如何完全删除此example.site/
robots.txt
?
浏览 11
提问于2020-10-06
得票数 0
2
回答
在nutch中
禁用
robots.txt
检查
web-crawler
、
nutch
我想在中
禁用
robots.txt
检查,并从网站抓取所有内容。Disable意味着在抓取或解析任何网站之前,跳过检查robot.txt。这个是可能
的
吗?
浏览 0
提问于2013-02-15
得票数 4
回答已采纳
2
回答
如何在中
禁用
googlebot?
python
、
google-app-engine
昨天googlebot导致我
的
应用程序超过了阅读配额。如何
禁用
googlebot?谢谢。更新-
url
: /
robots.txt
到我
的
app.yaml 并创建了
robots.txt
文件,目录为“机器人”,但是
url
http://www.example.com/
robots.txt
不工作。
浏览 3
提问于2011-11-27
得票数 3
回答已采纳
1
回答
.htaccess中
的
robots.txt
和Mod重写
security
、
.htaccess
、
mod-rewrite
、
robots.txt
在
robots.txt
文件中,我将禁止我
的
站点
的
某些
部分。 Disallow: /terms /data/terms_and_conditions.html 但是我已经使用.htaccess重写了
URL
。现在我
的
问题是,我应该在
robots.txt
中指定重写
的
浏览 1
提问于2010-10-02
得票数 2
回答已采纳
1
回答
正在读取
robots.txt
文件?
web-scraping
、
scrapy
、
robots.txt
我正在尝试网络抓取一个网站,他们
的
robots.txt
文件是这样写
的
:User-agent: * Disallowhuur/*,*Disallow: /recreatie/*,*这是否意味着我不能抓取任何/koop/*,*
的
链接我真的
浏览 1
提问于2019-11-03
得票数 1
2
回答
Bit.ly API调用在创建短
URL
之前/之后访问原始
url
php
、
curl
、
bit.ly
我正在用Bit.ly api生成v3短
url
。在原始
URL
中,我在点击后有一些DB操作。但是当我生成bit.ly
url
时,它会自动命中原始
的
URL
。$
url
= 'http://api.bit.ly/v3/shorten?login='.BITLYAPICALLLOGIN.'&apiKey='.BITLYAPICALLAPIKEY.'&format=json'; $s
浏览 4
提问于2019-06-14
得票数 0
回答已采纳
1
回答
正在尝试禁止子目录中
的
一个页面
seo
、
robots.txt
、
subdirectory
我正在尝试禁止子目录中
的
一个页面Disallow:但是进程在processfolder中,而我
的
url
显示为www.yoursite.com/ form.aspx/form.aspx 那么,如何在
robots.txt
中
禁用
form.aspx呢?上面给出
的
格式
robots.txt
:是正确<em
浏览 1
提问于2016-04-29
得票数 1
1
回答
在HTML5模式
的
angular应用程序中放置sitemap.xml
的
位置
angularjs
、
node.js
、
seo
、
sitemap
、
googlebot
我使用HTML5模式
的
angular应用程序托管在节点js服务器中。我正在使用幻影js生成快照并提供快照来搜索bots.But。我不知道应该将sitemap.xml文件添加到application.If中
的
什么位置,我将其放在公共文件夹或其他文件夹中。由于angular routing.Please,机器人无法使用它建议一种在我
的
站点中添加sitemap.xml
的
方法
浏览 0
提问于2015-11-06
得票数 0
3
回答
为什么谷歌网站管理员工具说,当我没有
robots.txt
的
时候,整个网站都被
robots.txt
屏蔽了?
robots.txt
我向工具提交了我
的
WordPress站点地图。好几次了。我一直收到同样
的
信息:但我哪里都没有
robots.txt
。似乎我
的
整个网站和它
上
的
每一个链接都被Googlebot屏蔽了。我使用
的
是WordPress
的
Yoast插件和Cloudflare,但我
浏览 0
提问于2014-04-24
得票数 1
1
回答
是否需要在
robots.txt
中单独
禁用
相关子文件夹?
robots.txt
在
robots.txt
中
禁用
某些
文件夹是否会
禁用
其相关子文件夹?folder//folder/page否则它就会匹配:因此,如果第二种情况是真的,我是否需要分别禁止第二个和后续
的
子文件夹
浏览 0
提问于2014-04-29
得票数 0
1
回答
robots.txt
拒绝访问具有漂亮
URL
的
特定
URL
参数
robots.txt
我有一个网站,使用漂亮
的
urls,需要阻止
某些
参数从搜索使用
robots.txt
。当特性是
url
的
参数时,如何使用
robots.txt
来阻止
url
。我读到你可以做这样
的
事:这将阻止机器人从任何在其中有功能
的
url
。这是真的吗?但是我需要这样
的
网址:工作! 谢谢
浏览 1
提问于2013-11-11
得票数 0
回答已采纳
1
回答
是否应该在
robots.txt
中隐藏RTL编码
的
URL
?
robots.txt
我有一个MediaWiki 1.32.0RTL站点(希伯来语),我想把它
的
一些
URL
隐藏在
robots.txt
的
谷歌和必应这样
的
搜索引擎中。
robots.txt
命令Disallow: /מדיה_ויקי:*可以有两个UTF-8版本,用于RTL语言(本例中是希伯来语),一个被解码,一个被编码;Disallow: /מדיה_ויקי:*Disallow: /%D7%9E%D7%93%D7%99%D7%94_%D7%95%D7%99%D7%
浏览 0
提问于2019-07-25
得票数 4
回答已采纳
3
回答
隐藏特定文件夹及其子文件夹和文件?
seo
、
robots.txt
我想在public_html中隐藏一个名为(
robots.txt
)
的
文件夹,使搜索引擎看不到它
的
所有子文件夹和文件,我是否必须将文件放在根文件夹(/)中,并像下面这样处理beta中
的
内容Disallow: /public_html/beta将
robots.txt
放在public_html中,并按如下所示执行内容Disallow: /beta
浏览 1
提问于2013-01-10
得票数 0
1
回答
Robots.txt
禁用
异常情况下
的
查询参数扫描
regex
、
.htaccess
、
robots.txt
我正在实现一些SEO更改,包括
robots.txt
更改,我正在解决这个问题。 我需要
禁用
(或不允许准确地说)包含一些查询
URL
参数
的
每个
URL
(?我需要允许针对特定子
URL
的
特定查询参数。所以让我说我需要允许/picture?path=XY。这个应该允许,但例如/-other?path=XY,而不是,所以/picture?other_param=XY ( /picture是可以
的
,但是没有仅命名为param<e
浏览 2
提问于2020-03-17
得票数 2
回答已采纳
1
回答
无法从清漆缓存中排除robot.txt
varnish
、
varnish-vcl
、
varnish-4
我尝试使用default.vcl中
的
以下几行代码从清漆缓存中排除
robots.txt
return(pass);现在,在devtools中
的
Network选项卡中,它显示Age: 0和X-Cache:MISS。但是,由于
某些
原因,varnish并不排除文件不被缓存。我甚至从它所在
的
位置删除了文件。但它仍然加载
url
curl -X
浏览 5
提问于2017-07-29
得票数 0
1
回答
为什么我
的
UTM链接会显示在Google搜索结果中?
google-analytics
、
utm-tracking
、
google-ads-api
为什么我
的
推荐跟踪链接在Google搜索中显示为此站点
的
索引页面?(上面的链接是为了显示它们)
浏览 5
提问于2020-04-16
得票数 0
1
回答
网络爬虫是否遵循
robots.txt
urls或标记?
javascript
、
url-rewriting
、
web-crawler
、
robots.txt
我有一个基于javascript
的
网站。具体来说,没有<a>标记。当单击
某些
按钮时,动态地将内容插入DOM树中,然后使用javascript更改
URL
以表示更新。所以,我
的
问题是,如果我在我
的
robots.txt
中有一个链接列表,允许
的
网络爬虫(Google,Bing等)会直接访问
robots.txt
中
的
链接,还是会遵循下载
的
网站中
的
a链接,并在
robots.txt
因为
浏览 0
提问于2017-01-23
得票数 0
回答已采纳
1
回答
为什么
robots.txt
的
含量在手工访问时以及通过ChromeDriver和Chrome通过Selenium访问时有所不同?
selenium
、
google-chrome
、
web-crawler
、
selenium-chromedriver
、
robots.txt
我正在努力尊重
robots.txt
文件,当我在网络
上
爬行时,我遇到了一些奇怪
的
事情。我要访问
的
robots.txt
URL
是:User-agent: *但是,如果我使用Internet或SeleniumWebDriver (ChromeDriver)打开此链接,则会得到以下内容:#
robots.txt
# This file is to prevent the cr
浏览 1
提问于2019-03-22
得票数 1
3
回答
谷歌正在为未发布或网站秘密部分
的
非预期内容建立索引。
seo
、
robots.txt
、
google-index
、
noindex
谷歌正在为我
的
网站中没有链接
的
部分建立索引,这是我正在开发
的
一个移动版网站-- www.domain.com/m/ <--注意M。 这怎么可能?我唯一能想到
的
就是Google从获得
URL
。我
的
开发站点dev.domain.com也有同样
的
问题--我已经通过重新启用htpasswd修复了这个问题。有过一次,但出于
某些
测试目的而
禁用
了它。我知道我可以用
robots.txt
来跳过索引,但是总有人告
浏览 0
提问于2011-06-02
得票数 3
点击加载更多
相关
资讯
如何禁用公司电脑上的USB接口?
SEO优化:如何正确设置robots.txt协议文件?
搜索引擎的网络爬虫、网页蜘蛛爬行知识分享,robots协议能阻止站点被爬吗
事业上谋求成功,没有绝对的公式,依赖某些原则,成功的希望更高
robots.txt文件原理、规则和写法
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券