首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Scrapy抓取rss提要不会返回任何结果

使用Scrapy抓取rss提要不会返回任何结果
EN

Stack Overflow用户
提问于 2019-06-02 11:27:58
回答 1查看 107关注 0票数 0

我正在使用Scrapy来抓取页面,我尝试了很多次,但我确信以下命令(在shell中)不起作用,并返回空结果:

代码语言:javascript
复制
response.xpath('//*[@class="itemtitle"]/a/text()').extract()

这就是在chrome控制台中,这给我带来了预期的结果:

代码语言:javascript
复制
$x('//*[@class="itemtitle"]/a/text()')[0]

我检查了目标url的robot.txt,发现了以下内容:

代码语言:javascript
复制
User-agent: *
Disallow: /~a/

我想知道它是不是不允许刮掉它。

所以我的具体问题是,有没有可能防止机器人在某些页面上抓取?如果不是我代码可能出错的地方,则会在Scrapy shell中产生空结果。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-02 23:34:05

一定要检查源代码(通常是浏览器中的Ctrl+U )。您需要:

代码语言:javascript
复制
response.xpath('//item/title/text()').extract()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56411991

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档