网络爬虫有时候也会引发很多的问题
所以,一般部分网站会给出限制网路爬虫的协议,这就是robots协议。
robots协议的全名为Robots Exclusion Standard,网络爬虫排除标准 作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行 形式: 在网站根目录下的robots.txt文件
image.png
image.png
意思就是 对于所有的user-agent: 不可以访问一下url Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/.html?* 对于其他几个user-agent是禁止爬虫的,我们看一下就是一淘这些淘宝的搜索引擎,也难怪京东和淘宝哈哈哈
实际中如何遵守robots协议
image.png