我想把一个简单的有密码保护的门户网站镜像到一些我想保持镜像和更新的数据上。本质上,这个网站只是一个目录列表,将数据组织到文件夹中&我并不真正关心是否保存html文件和其他格式化元素。但是有一些很大的文件类型太大,无法下载,所以我想忽略它们。
使用wget -m -R/--reject
标志几乎做了我想要的事情,除了下载所有文件,然后如果它们与-R标志匹配,那么它们将被删除。
下面是我如何使用wget
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
这将产生如下输出,确认已排除的文件(index.html) (a)已下载,然后(b)被删除:
...
--2012-05-23 09:38:38-- http://web.server.org/folder/
重新使用到web.server.org:80的现有连接。
HTTP请求已发送,正在等待响应...需要401授权
重新使用到web.server.org:80的现有连接。
HTTP请求已发送,正在等待响应...200好的
长度: 2677 (2.6K) text/html
保存到:web.server.org/folder/index.html' 100%[======================================================================================================================>] 2,677 --.-K/s in 0s Last-modified header missing -- time-stamps turned off. 2012-05-23 09:38:39 (328 MB/s) -
web.server.org/folder/index.html‘保存了2677/2677删除了web.server.org/folder/index.html,因为它应该被拒绝。...
有没有办法强制wget在下载之前拒绝该文件?
有没有我应该考虑的替代方案?
另外,尽管我提供了用户名和密码,但为什么每个下载的文件都会出现401 Authorization Required
错误。这就像wget
每次在尝试用户名/密码之前,都会尝试未经身份验证的连接。
谢谢,马克
https://stackoverflow.com/questions/10712344
复制相似问题