问使用Scrapy抓取rss提要不会返回任何结果
EN

Stack Overflow用户

提问于 2019-06-02 11:27:58

回答 1查看 107关注 0票数 0

我正在使用Scrapy来抓取页面，我尝试了很多次，但我确信以下命令(在shell中)不起作用，并返回空结果：

response.xpath('//*[@class="itemtitle"]/a/text()').extract()

这就是在chrome控制台中，这给我带来了预期的结果：

$x('//*[@class="itemtitle"]/a/text()')[0]

我检查了目标url的robot.txt，发现了以下内容：

User-agent: *
Disallow: /~a/

我想知道它是不是不允许刮掉它。

所以我的具体问题是，有没有可能防止机器人在某些页面上抓取？如果不是我代码可能出错的地方，则会在Scrapy shell中产生空结果。

回答已采纳

发布于 2019-06-02 23:34:05

一定要检查源代码(通常是浏览器中的Ctrl+U )。您需要：

response.xpath('//item/title/text()').extract()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56411991

复制

相似问题

问使用Scrapy抓取rss提要不会返回任何结果EN