问页面未完全处理
EN

Stack Overflow用户

提问于 2019-11-04 21:46:15

回答 1查看 40关注 0票数 0

我正在尝试从雅虎财经网站抓取新闻文章，为此，我想使用他们的网站地图页面https://finance.yahoo.com/sitemap/

我遇到的问题是，在跟随一个链接之后，例如https://finance.yahoo.com/sitemap/2015_04_02，scrapy不会处理整个页面--只处理标题。所以我不能访问不同文章的链接。是否有一些内部请求需要我发送到该页面？

我仍然通过在浏览器中停用javascript获得整个页面，并且我使用scrapy 1.6

谢谢。

发布于 2019-11-04 21:53:33

一些网站对机器人抓取网站采取了防御措施。如果他们检测到你不是人类，他们可能不会服务于整个页面。但更可能发生的情况是，当你在web浏览器中查看页面时，会发生一系列客户端渲染，而当你在scrapy中请求相同的页面时，这些渲染并不会执行。

雅虎!金融有一个API。使用它可能会得到更可靠的结果。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58694730

复制

相似问题

问页面未完全处理EN