我想阻止爬虫索引特定的图片在我的网站上,但只有当他们是年龄超过一个特定的日期。但是,爬虫不应停止索引当前链接图像的页面。
我最初的方法是编写一个脚本,它将图像的URL添加到'robots.txt',但是我认为文件会变得很大,因为我们谈论了大量的潜在图像。
我的下一个想法是使用<meta name="robots" content="noimageindex">
标记,但我认为这种方法很容易出错,因为我可以忘记将这个标记添加到模板中,在模板中我可能希望阻止爬虫对图像进行索引。这也是多余的,爬虫将忽略所有的图像。
我的问题是:如果某个条件(在我的例子中是日期)是正确的,那么您知道以编程方式强迫爬虫不要索引图像吗?还是我唯一可能阻止爬虫索引整个页面?
发布于 2017-09-18 09:04:57
在考虑的基础上,您可以创建一个单独的位置来保存不希望被索引的图像,编写一个脚本,在文件“过期”后将文件移动到该位置,然后将url添加到robots.txt文件中。也许有点像/expired_images*
。
https://stackoverflow.com/questions/46275319
复制相似问题