如何使用wget
并从网站获取所有文件?
我需要所有的文件,除了网页文件,如HTML,PHP,ASP等。
发布于 2012-01-06 17:58:50
要筛选特定文件扩展名,请执行以下操作:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
或者,如果您喜欢长选项名称:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
这将镜像站点,但不带jpg
或pdf
扩展名的文件将被自动删除。
发布于 2013-12-10 20:40:48
您可以尝试:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
您还可以添加:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
要接受特定扩展或仅拒绝特定扩展,请执行以下操作:
-R html,htm,asp,php
或者排除特定区域:
-X "search*,forum*"
如果机器人(例如搜索引擎)忽略了这些文件,你还需要添加:-e robots=off
发布于 2014-09-23 10:53:16
尝尝这个。它对我来说总是有效的
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
https://stackoverflow.com/questions/8755229
复制相似问题