我使用以下代码将Internet中的大文件流式传输到本地文件中:
fp = open(file, 'wb')
req = urllib2.urlopen(url)
for line in req:
fp.write(line)
fp.close()
这是可行的,但是下载速度非常慢。有没有更快的方法?(文件很大,所以我不想将它们保存在内存中。)
发布于 2009-10-04 23:42:58
没有理由逐行工作(小块并需要Python为您找到行尾!),只需将其分成更大的块,例如:
# from urllib2 import urlopen # Python 2
from urllib.request import urlopen # Python 3
response = urlopen(url)
CHUNK = 16 * 1024
with open(file, 'wb') as f:
while True:
chunk = response.read(CHUNK)
if not chunk:
break
f.write(chunk)
尝试一下不同的块大小,找到满足您需求的“最佳位置”。
发布于 2011-03-23 04:28:19
您也可以使用shutil
import shutil
try:
from urllib.request import urlopen # Python 3
except ImportError:
from urllib2 import urlopen # Python 2
def get_large_file(url, file, length=16*1024):
req = urlopen(url)
with open(file, 'wb') as fp:
shutil.copyfileobj(req, fp, length)
发布于 2009-10-04 23:07:50
我曾经使用过mechanize
模块和它的Browser.retrieve()方法。在过去,它占用100%的CPU和下载非常慢的东西,但最近的一些版本修复了这个错误,工作非常快。
示例:
import mechanize
browser = mechanize.Browser()
browser.retrieve('http://www.kernel.org/pub/linux/kernel/v2.6/testing/linux-2.6.32-rc1.tar.bz2', 'Downloads/my-new-kernel.tar.bz2')
机械化是基于urllib2的,所以urllib2也可以有类似的方法...但我现在找不到了。
https://stackoverflow.com/questions/1517616
复制相似问题