这个是我根据网上的经典模板修改得到的爬虫代码。在日常的开发中,用于爬取文件。
在 spider.py
文件中,以下代码段修改成具体需要的参数:
# 替换为你指定的 url
url = 'https://... ...'
运行程序即可:
python spider.py
# coding=utf-8
import os
import urllib
import logging
import sys
# logging配置
logging.basicConfig(
format='%(asctime)s %(levelname)s %(message)s',
level=logging.INFO,
stream=sys.stdout)
file_path = os.path.join(os.getcwd(),'dir_name/file_name')
if not os.path.isfile(file_path):
logging.info("File doesn't exist.")
# 替换为你指定的 url
url = 'https://... ...'
# 一旦用于存放下载文件的 本地目录:'dir_name/' 不存在
file_dir = file_path[:-9]
if not os.path.exists(file_dir):
logging.info("Mkdir 'dir_name/'.")
os.mkdir(file_dir)
def down(_save_path, _url):
try:
urllib.urlretrieve(_url, _save_path)
except:
print '\nError when retrieving the URL:', _save_path
logging.info("Downloading file.")
down(file_path, url)
else:
logging.info("File exists.")