有没有办法配置robots.txt,使网站只接受来自谷歌,雅虎!还有MSN蜘蛛呢?
发布于 2009-03-22 19:35:02
为什么?
任何做坏事的人(例如,收集电子邮件地址来发送垃圾邮件)都会忽略robots.txt。所以你只会屏蔽合法的搜索引擎,因为遵守robots.txt是自愿的。
但是--如果你坚持这样做的话--这就是robots.txt中User-Agent:行的作用。
User-agent: googlebot
Disallow: 
User-agent: *
Disallow: /当然,还有你想要流量的所有其他搜索引擎的队列。Robotstxt.org有一个部分列表。
发布于 2018-06-23 09:01:03
根据你所说的国家不同,有超过3个主要的搜索引擎。Facebook似乎做得很好,只列出了合法的网站:https://facebook.com/robots.txt
所以你的robots.txt可以是这样的:
User-agent: Applebot
Allow: /
User-agent: baiduspider
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Facebot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: msnbot
Allow: /
User-agent: Naverbot
Allow: /
User-agent: seznambot
Allow: /
User-agent: Slurp
Allow: /
User-agent: teoma
Allow: /
User-agent: Twitterbot
Allow: /
User-agent: Yandex
Allow: /
User-agent: Yeti
Allow: /
User-agent: *
Disallow: /发布于 2012-10-24 03:07:18
众所周知,robots.txt是爬虫必须遵守的标准,因此只有行为良好的代理才会这样做。所以,放不放都无关紧要。
如果您有一些数据,但您没有显示在网站上,您只需更改权限并提高安全性。
https://stackoverflow.com/questions/671491
复制相似问题