前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python爬虫: 从 指定路径 爬取 文件

python爬虫: 从 指定路径 爬取 文件

作者头像
JNingWei
发布2018-09-28 15:36:03
2.7K0
发布2018-09-28 15:36:03
举报
文章被收录于专栏:JNing的专栏

介绍

这个是我根据网上的经典模板修改得到的爬虫代码。在日常的开发中,用于爬取文件。

使用说明

spider.py 文件中,以下代码段修改成具体需要的参数:

代码语言:javascript
复制
    # 替换为你指定的 url
    url = 'https://... ...'

运行程序即可:

代码语言:javascript
复制
python spider.py

实现代码

spider.py :

代码语言:javascript
复制
# coding=utf-8
import os
import urllib
import logging
import sys

# logging配置
logging.basicConfig(
    format='%(asctime)s %(levelname)s %(message)s',
    level=logging.INFO,
    stream=sys.stdout)

file_path = os.path.join(os.getcwd(),'dir_name/file_name')

if not os.path.isfile(file_path):
    logging.info("File doesn't exist.")
    # 替换为你指定的 url
    url = 'https://... ...'

    # 一旦用于存放下载文件的 本地目录:'dir_name/' 不存在
    file_dir = file_path[:-9]
    if not os.path.exists(file_dir):
        logging.info("Mkdir 'dir_name/'.")
        os.mkdir(file_dir)

    def down(_save_path, _url):
        try:
            urllib.urlretrieve(_url, _save_path)
        except:
            print '\nError when retrieving the URL:', _save_path

    logging.info("Downloading file.")
    down(file_path, url)
else:
    logging.info("File exists.")


本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年10月15日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 使用说明
  • 实现代码
    • spider.py :
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档