首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >编写脚本下载服务器上的所有内容

编写脚本下载服务器上的所有内容
EN

Stack Overflow用户
提问于 2014-10-01 10:06:21
回答 2查看 310关注 0票数 0

我想下载本网站上可公开访问的所有文件:

代码语言:javascript
复制
https://www.duo.uio.no/

这是奥斯陆大学的网站,在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过爬虫,但网站设置了一些机制来阻止爬虫访问他们的文档。还有其他方法吗?

在最初的问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我试过SiteSucker,但这似乎只是下载网站本身。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-01 11:31:59

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=unix,ascii --domains your-site.com --no-parent http://your-site.com

试试看

票数 2
EN

Stack Overflow用户

发布于 2014-10-01 10:10:07

您可以尝试使用sucker (下载),它允许您下载网站的内容,而忽略了它们可能存在的任何规则。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26138899

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档