我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。
网站需要遵循相同的会话,才能允许您下载pdf。
它在Scrapy上工作得很好,因为它是自动的,但当我在几秒钟后运行脚本时,它开始给我假的pdf文件,就像我试图在没有会话的情况下直接访问pdf一样。
为什么会这样&你知道如何克服这个问题吗?
发布于 2011-11-14 02:50:06
我想这个网站会跟踪你的会话。如果是PHP站点,则将PHPSESSID cookie传递给下载PDF文件的请求。
https://stackoverflow.com/questions/8108477
复制相似问题