首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何使用wget从网站下载所有文件(但不是HTML)?

如何使用wget从网站下载所有文件(但不是HTML)?
EN

Stack Overflow用户
提问于 2012-01-06 16:32:13
回答 4查看 276.8K关注 0票数 168

如何使用wget并从网站获取所有文件?

我需要所有的文件,除了网页文件,如HTML,PHP,ASP等。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-01-06 17:58:50

要筛选特定文件扩展名,请执行以下操作:

代码语言:javascript
复制
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

或者,如果您喜欢长选项名称:

代码语言:javascript
复制
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

这将镜像站点,但不带jpgpdf扩展名的文件将被自动删除。

票数 279
EN

Stack Overflow用户

发布于 2013-12-10 20:40:48

您可以尝试:

代码语言:javascript
复制
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

您还可以添加:

代码语言:javascript
复制
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

要接受特定扩展或仅拒绝特定扩展,请执行以下操作:

代码语言:javascript
复制
-R html,htm,asp,php

或者排除特定区域:

代码语言:javascript
复制
-X "search*,forum*"

如果机器人(例如搜索引擎)忽略了这些文件,你还需要添加:-e robots=off

票数 7
EN

Stack Overflow用户

发布于 2014-09-23 10:53:16

尝尝这个。它对我来说总是有效的

代码语言:javascript
复制
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8755229

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档