腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用boost
读取
远程
文件
的C++。?
我需要使用c++
读取
远程
文件
,我
正在
尝试使用示例
读取
远程
robots.txt
文件
...www.google.co.in/
robots.txt
浏览 4
提问于2010-09-05
得票数 0
2
回答
正在
读取
robots.txt
文件
、
在下面的
robots.txt
文件
中,它说明了禁止所有的magpie crawler目录。假设我使用的是一个不同的网络爬虫,比如Scrapy。这个
robots.txt
没有列出任何其他东西,那么允许抓取机器人抓取吗?
浏览 17
提问于2019-01-28
得票数 1
1
回答
正在
读取
robots.txt
文件
?
、
、
我
正在
尝试网络抓取一个网站,他们的
robots.txt
文件
是这样写的:User-agent: * Disallow
浏览 1
提问于2019-11-03
得票数 1
1
回答
如何在子
文件
夹中覆盖机器人?
我已将
robots.txt
设置为不允许此
文件
夹。 由于某些原因,一些结果仍然显示出来。我认为这可能是因为我最初没有设置
robots.txt
,而且谷歌还没有删除其中的一些。现在,我担心这个
文件
夹中个别joomla站点中的
robots.txt
文件
会导致Google继续对它们进行索引。理想情况下,我想阻止这种情况的发生,因为我不想记住,当
robots.txt
运行时,我必须把它转回来跟随它(以防万一)。是否有一种方法可以使用该
文件
夹上方的
文件
浏览 1
提问于2013-10-21
得票数 0
2
回答
Pythonrobot解析器模块不会加载“
robots.txt
”
、
、
、
我
正在
编写一个非常简单的web爬虫,并试图解析'
robots.txt
'
文件
。我在标准库中找到了robotparser模块,它应该就是这样做的。我
正在
使用Python2.7.2。不幸的是,我的代码无法正确加载'
robots.txt
'
文件
,我也不知道为什么。解析器
读取
一个空白的'
robots.txt
'
文件
,而不是指定的URL,并将True返回到所有can_fetch()查询。它看
浏览 2
提问于2012-04-05
得票数 3
回答已采纳
1
回答
robots.txt
htaccess屏蔽谷歌
、
、
在我的.htaccess
文件
中有:Order deny,allow</Files>
robots.txt
Statushttp://mysite/
robots.txt
如何修改.htaccess以
浏览 6
提问于2011-09-20
得票数 4
回答已采纳
3
回答
我的CakePHP应用程序该如何处理CakePHP呢?
、
、
Exception Attributes: array ( 'plugin' => NULL,Request URL: /
robots.txt
我使用的是CakePHP 2.4.2这是我的
robots.txt
。我还有什么要补充的吗?我把它放在webroot里了。Disallow: /admin/
浏览 1
提问于2014-02-28
得票数 5
2
回答
如何从
robots.txt
文件
中
读取
站点地图url文本
、
、
、
、
我想阅读
robots.txt
文件
(www.abc d.com/
robots.txt
)的文本,其中包含来自我的C#应用程序的sitemap。如果
robots.txt
文件
中有sitemap,我必须使用if来生成警报,然后它将显示是,并且它不包含sitemap,那么它将显示no。
Robots.txt
文件
文本如下所示:User-agent: *Crawl-delay: 10 # Website Sitemap
浏览 4
提问于2013-09-16
得票数 1
回答已采纳
1
回答
如何保护目录中的
文件
?
、
我
正在
为我的一个客户创建一个网站。假设这是我的网站: www.website.com我在子域中也有
robots.txt
文件
,比如-> 。如果有人直接输入这个url "",他们就可以
读取
我
robots.txt
文件
。 如果我想保护这些
文件
,我应该怎么做?
浏览 2
提问于2015-01-11
得票数 0
2
回答
我可以将
robots.txt
放在上下文路径中并提供301重定向吗?
、
robots.txt
可以在www.example.com/abc/
robots.txt
上找到,我在webserver中给出了301重定向,将www.example.com/
robots.txt
重定向到www.example.com/abc/
robots.txt
。我的问题是,搜索引擎是否能够
读取
robots.txt
文件
,因为它有301重定向?
浏览 3
提问于2017-04-06
得票数 0
1
回答
逐行
读取
robot.txt
、
、
、
我
正在
尝试使用jsoup
读取
一个robot.txt
文件
。我想逐行
读取
这个
文件
,并确定一行是否不允许/允许/useragent/sitemap。有办法逐行
读取
这个
文件
吗? 谢谢!
浏览 2
提问于2014-09-08
得票数 0
回答已采纳
2
回答
如何不允许
robots.txt
中的部分字符串用于Wordpress
、
、
我的wordpress
robots.txt
文件
中有以下设置。因为某种原因,允许的部分不起作用?根据谷歌网站管理员的工具,它不喜欢以下内容。 有人能告诉我为什么吗?
浏览 3
提问于2013-10-29
得票数 0
回答已采纳
1
回答
如何阻止机器人爬行或索引角应用程序
、
、
我会简单地在我的<meta>页面上添加我的index.html标记,为了更好的衡量,在根中添加一个
robots.txt
文件
?这些是我的元标签:<meta name="googlebot" content="noindex" />User-agent: * Di
浏览 1
提问于2019-10-28
得票数 5
1
回答
灯塔
读取
我的索引而不是
robots.txt
、
我想在我的React应用程序上使用chrome审计工具,但它总是说我的
robots.txt
文件
无效。问题是,这个
文件
看起来非常好,只是它
读取
的不是
robots.txt
,而是我的index.html
文件
,因此导致了这个错误:这两个
文件
都在我的/public
文件
夹中,那么为什么要
读取
索引
文件
呢
浏览 1
提问于2018-09-07
得票数 5
1
回答
旧的
robots.txt
文件
不更改,无法更新到当前的
robots.txt
、
当我的wordpress网站
正在
制作时,我创建了一个
robots.txt
文件
来禁止一切。当站点准备就绪时,我通过cpanel删除了
robots.txt
文件
,从来没有考虑过这个问题。最近,我意识到谷歌搜索结果并没有显示这个网站,经过进一步的调查,我意识到旧的
robots.txt
文件
仍然存在(尽管我无法在我的根目录中找到这个
文件
)。http://youngauthors.my/
robots.txt
我在根<e
浏览 0
提问于2017-11-13
得票数 0
回答已采纳
7
回答
robots.txt
;什么编码?
、
我即将创建一个
robots.txt
文件
。我应该如何保存
文件
?UTF8,ANSI还是什么?在
文件
中,我指定了一个站点地图位置。
浏览 10
提问于2010-09-28
得票数 11
回答已采纳
1
回答
Python RobotFileParser挂起
读取
、
我
正在
尝试
读取
robots.txt
文件
,并弄清楚机器人是否允许
读取
特定的页面。import urllib.request rp = urobot.RobotFileParser() rp.set_url(url + "/
robots.txt
浏览 0
提问于2020-09-23
得票数 0
回答已采纳
1
回答
有什么正确的方法来阻止访问者从一个特定的
文件
夹,但允许我的IP看到它(PHP)?
、
、
除了我的IP之外,我能阻止每个人只访问那个
文件
夹/部分吗?如果是这样的话,它是通过htaccess,
robots.txt
,两者的组合,或者其他方式完成的吗?对于访客,我可以在我的htaccess中添加以下内容:deny from all但我可以调整一下,说除了"fr“
文件
夹之外我知道对于机器人(即谷歌),如果我想阻止机器人访问,这个
robots.txt
文件
将在我的主站点的根目录上使用: User
浏览 0
提问于2017-12-04
得票数 0
回答已采纳
1
回答
我如何鼓励谷歌扫描新的
robots.txt
文件
?
、
我刚刚在一个新站点上更新了我的
robots.txt
文件
;Google报告说它在我上次更新前2天
读取
了我的
robots.txt
。我的上一个
robots.txt
有一个“不允许:全部”的原始。有没有办法鼓励谷歌尽快重读我的
robots.txt
? 目前,谷歌还没有扫描我的网站。请帮帮我!
浏览 0
提问于2014-08-04
得票数 -4
4
回答
Robots.txt
不更新
、
“由于本网站的
robots.txt
-学习更多信息,无法获得对此结果的描述。”我已经尝试过编辑网站 (下载了WP机器人插件),尽管我已经将它更改为Disallow: /wp-admin/
robots.txt
浏览 0
提问于2015-12-09
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券