文章/答案/技术大牛

发布

社区首页 >问答首页 >编写脚本下载服务器上的所有内容

问编写脚本下载服务器上的所有内容
EN

Stack Overflow用户

提问于 2014-10-01 10:06:21

回答 2查看 310关注 0票数 0

我想下载本网站上可公开访问的所有文件：

https://www.duo.uio.no/

这是奥斯陆大学的网站，在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过爬虫，但网站设置了一些机制来阻止爬虫访问他们的文档。还有其他方法吗？

在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我试过SiteSucker，但这似乎只是下载网站本身。

python

bash

http

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-01 11:31:59

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=unix,ascii --domains your-site.com --no-parent http://your-site.com

试试看

票数 2

Stack Overflow用户

发布于 2014-10-01 10:10:07

您可以尝试使用sucker (下载)，它允许您下载网站的内容，而忽略了它们可能存在的任何规则。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26138899

复制

相似问题

问编写脚本下载服务器上的所有内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编写脚本下载服务器上的所有内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编写脚本下载服务器上的所有内容
EN