问镜像http网站，不包括某些文件
EN

Stack Overflow用户

提问于 2012-05-23 09:29:12

回答 3查看 18.7K关注 0票数 9

我想把一个简单的有密码保护的门户网站镜像到一些我想保持镜像和更新的数据上。本质上，这个网站只是一个目录列表，将数据组织到文件夹中&我并不真正关心是否保存html文件和其他格式化元素。但是有一些很大的文件类型太大，无法下载，所以我想忽略它们。

使用wget -m -R/--reject标志几乎做了我想要的事情，除了下载所有文件，然后如果它们与-R标志匹配，那么它们将被删除。

下面是我如何使用wget

wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/

这将产生如下输出，确认已排除的文件(index.html) (a)已下载，然后(b)被删除：

...

--2012-05-23 09:38:38-- http://web.server.org/folder/

重新使用到web.server.org:80的现有连接。

HTTP请求已发送，正在等待响应...需要401授权

重新使用到web.server.org:80的现有连接。

HTTP请求已发送，正在等待响应...200好的

长度: 2677 (2.6K) text/html

保存到：web.server.org/folder/index.html' 100%[======================================================================================================================>] 2,677 --.-K/s in 0s Last-modified header missing -- time-stamps turned off. 2012-05-23 09:38:39 (328 MB/s) -web.server.org/folder/index.html‘保存了2677/2677删除了web.server.org/folder/index.html，因为它应该被拒绝。...

有没有办法强制wget在下载之前拒绝该文件？

有没有我应该考虑的替代方案？

另外，尽管我提供了用户名和密码，但为什么每个下载的文件都会出现401 Authorization Required错误。这就像wget每次在尝试用户名/密码之前，都会尝试未经身份验证的连接。

谢谢，马克

wget

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10712344

复制

相似问题

问镜像http网站，不包括某些文件
EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问镜像http网站，不包括某些文件EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问镜像http网站，不包括某些文件
EN