问如何使用wget从网站下载所有文件(但不是HTML)？
EN

Stack Overflow用户

提问于 2012-01-06 16:32:13

回答 4查看 276.8K关注 0票数 168

如何使用wget并从网站获取所有文件？

我需要所有的文件，除了网页文件，如HTML，PHP，ASP等。

ubuntu

download

wget

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-01-06 17:58:50

要筛选特定文件扩展名，请执行以下操作：

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

或者，如果您喜欢长选项名称：

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

这将镜像站点，但不带jpg或pdf扩展名的文件将被自动删除。

票数 279

Stack Overflow用户

发布于 2013-12-10 20:40:48

您可以尝试：

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

您还可以添加：

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

要接受特定扩展或仅拒绝特定扩展，请执行以下操作：

-R html,htm,asp,php

或者排除特定区域：

-X "search*,forum*"

如果机器人(例如搜索引擎)忽略了这些文件，你还需要添加：-e robots=off

票数 7

Stack Overflow用户

发布于 2014-09-23 10:53:16

尝尝这个。它对我来说总是有效的

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8755229

复制

相似问题

问如何使用wget从网站下载所有文件(但不是HTML)？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用wget从网站下载所有文件(但不是HTML)？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用wget从网站下载所有文件(但不是HTML)？
EN