我正在下载大约5000 .htm网页从一个网站使用惠特为Windows。页面大小在500 KB到1,5MB之间。
下载1000个文件需要35分钟,这意味着5000个文件需要3个小时。还有更快的选择吗?也许某个程序可以在同一时间下载多个文件,或者下载内存中的文件,然后以100或300个文件的批次保存在磁盘上?
脚本如下所示:
wget -O 10001.htm https://www.wowhead.com/item=10001
wget -O 10002.htm https://www.wowhead.com/item=10002
..
wget -O 11000.htm https://www.wowhead.com/item=11000
我只是使用wowhead.com作为一个例子,因为它们有很多文件,所以我可以创建一个很好的例子。我不需要那些文件从wowhead,但有时我不得不下载数千个类似大小的文件从其他网站。
发布于 2021-07-08 13:58:44
可能考虑使用aria2代替。
它附带了一系列特性,使得它在这种类型的使用中优于wget,包括:
它也是完全免费的,并具有良好的跨平台支持。
发布于 2021-07-08 03:53:55
由于请求是独立的,所以可以将脚本划分为将并发执行的较小脚本。使四个大致相等的脚本很可能在当前时间的1/4内运行。随着同时请求的数量越来越多,您将受到限制在您的终端或主机。
发布于 2021-07-08 23:32:56
看起来您正在为每次下载启动一个新的wget实例。我通常将所有的URL存储在一个文本文件中(每行一个URL),并使用wget的-i (输入文件)标志。
类似于:wget --no-clobber -i urls.txt
https://softwarerecs.stackexchange.com/questions/79850
复制相似问题