首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Robots.txt:仅允许主SE

Robots.txt:仅允许主SE
EN

Stack Overflow用户
提问于 2009-03-22 19:30:09
回答 3查看 24.9K关注 0票数 24

有没有办法配置robots.txt,使网站只接受来自谷歌,雅虎!还有MSN蜘蛛呢?

EN

回答 3

Stack Overflow用户

发布于 2009-03-22 19:35:02

为什么?

任何做坏事的人(例如,收集电子邮件地址来发送垃圾邮件)都会忽略robots.txt。所以你只会屏蔽合法的搜索引擎,因为遵守robots.txt是自愿的。

但是--如果你坚持这样做的话--这就是robots.txt中User-Agent:行的作用。

代码语言:javascript
运行
复制
User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然,还有你想要流量的所有其他搜索引擎的队列。Robotstxt.org有一个部分列表。

票数 18
EN

Stack Overflow用户

发布于 2018-06-23 09:01:03

根据你所说的国家不同,有超过3个主要的搜索引擎。Facebook似乎做得很好,只列出了合法的网站:https://facebook.com/robots.txt

所以你的robots.txt可以是这样的:

代码语言:javascript
运行
复制
User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /
票数 3
EN

Stack Overflow用户

发布于 2012-10-24 03:07:18

众所周知,robots.txt是爬虫必须遵守的标准,因此只有行为良好的代理才会这样做。所以,放不放都无关紧要。

如果您有一些数据,但您没有显示在网站上,您只需更改权限并提高安全性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/671491

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档