我正在使用Scrapy来抓取页面,我尝试了很多次,但我确信以下命令(在shell中)不起作用,并返回空结果:
response.xpath('//*[@class="itemtitle"]/a/text()').extract()
这就是在chrome控制台中,这给我带来了预期的结果:
$x('//*[@class="itemtitle"]/a/text()')[0]
我检查了目标url的robot.txt,发现了以下内容:
User-agent: *
Disallow: /~a/
我想知道它是不是不允许刮掉它。
所以我的具体问题是,有没有可能防止机器人在某些页面上抓取?如果不是我代码可能出错的地方,则会在Scrapy shell中产生空结果。
https://stackoverflow.com/questions/56411991
复制相似问题