我正在尝试从雅虎财经网站抓取新闻文章,为此,我想使用他们的网站地图页面https://finance.yahoo.com/sitemap/
我遇到的问题是,在跟随一个链接之后,例如https://finance.yahoo.com/sitemap/2015_04_02,scrapy不会处理整个页面--只处理标题。所以我不能访问不同文章的链接。是否有一些内部请求需要我发送到该页面?
我仍然通过在浏览器中停用javascript获得整个页面,并且我使用scrapy 1.6
谢谢。
发布于 2019-11-04 21:53:33
一些网站对机器人抓取网站采取了防御措施。如果他们检测到你不是人类,他们可能不会服务于整个页面。但更可能发生的情况是,当你在web浏览器中查看页面时,会发生一系列客户端渲染,而当你在scrapy中请求相同的页面时,这些渲染并不会执行。
雅虎!金融有一个API。使用它可能会得到更可靠的结果。
https://stackoverflow.com/questions/58694730
复制相似问题