使用Scrapy抓取rss feed不会返回任何结果

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (93)

我正在使用Scrapy刮一页,我尝试了很多次,我确信以下不起作用(在shell中)并返回空结果:

response.xpath('//*[@class="itemtitle"]/a/text()').extract()

这是Chrome控制台的地方,这给我带来了预期的结果:

$x('//*[@class="itemtitle"]/a/text()')[0]

我检查了robot.txt中的目标网址,发现了以下内容:

User-agent: *
Disallow: /~a/

我想知道是否不允许刮掉它。

所以我的具体问题是,是否可以防止机器人在某些页面上刮擦?如果不是我的代码可能出错,那将在Scrapy shell中带来空结果。

提问于
用户回答回答于

始终检查源HTML(通常Ctrl+U在浏览器中)。你需要:

response.xpath('//item/title/text()').extract()

扫码关注云+社区

领取腾讯云代金券