首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >页面未完全处理

页面未完全处理
EN

Stack Overflow用户
提问于 2019-11-04 21:46:15
回答 1查看 40关注 0票数 0

我正在尝试从雅虎财经网站抓取新闻文章,为此,我想使用他们的网站地图页面https://finance.yahoo.com/sitemap/

我遇到的问题是,在跟随一个链接之后,例如https://finance.yahoo.com/sitemap/2015_04_02,scrapy不会处理整个页面--只处理标题。所以我不能访问不同文章的链接。是否有一些内部请求需要我发送到该页面?

我仍然通过在浏览器中停用javascript获得整个页面,并且我使用scrapy 1.6

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2019-11-04 21:53:33

一些网站对机器人抓取网站采取了防御措施。如果他们检测到你不是人类,他们可能不会服务于整个页面。但更可能发生的情况是,当你在web浏览器中查看页面时,会发生一系列客户端渲染,而当你在scrapy中请求相同的页面时,这些渲染并不会执行。

雅虎!金融有一个API。使用它可能会得到更可靠的结果。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58694730

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档