首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Python2.0抓取豆瓣图片

Python2.0抓取豆瓣图片

作者头像
IT架构圈
发布2018-05-31 15:57:17
发布2018-05-31 15:57:17
6650
举报
文章被收录于专栏:IT架构圈IT架构圈
代码语言:javascript
复制
import urllib.request  
from html.parser import HTMLParser  
import re  
import os  
import shutil  
import time  
url = "http://www.douban.com/"  
filePath = "D:\\temp"  
# 读也HTML  
urlContent = urllib.request.urlopen(url);  
data = str(urlContent.read())  
# 初始化文件目录  
if  os.path.isdir(filePath):  
#     os.removedirs(filePath)  
    shutil.rmtree(filePath)  
elif os.path.isfile(filePath):  
    os.remove(filePath)  
os.makedirs(filePath)  
# 生成唯一文件名  
intFlag = 0  
def getTimeStr():  
    global intFlag  
    intFlag = intFlag + 1  
    return time.strftime("%H%M%S") + str(intFlag)  
# 解析HTML  
# HTMLParser方式解析,这里HTMLParser类似于抽象类  
class MyHtmlParser(HTMLParser):  
    def handle_starttag(self, tag, attrs):  
        '获取 img标签'  
        if tag == "img" :  
            for imageUrl in attrs:  
                '获取src属性'  
                if imageUrl[0] == 'src':  
                    imageUrl = imageUrl[1]  
                    imageUrl = re.sub("[\\\\']", "", imageUrl)  
                    iamgeUrlArr = imageUrl.split("/")  
                    imgFilePath = iamgeUrlArr[len(iamgeUrlArr) - 1]  
                    try:  
                        imgData = urllib.request.urlopen(imageUrl).read()  
                        imgFilePath = filePath + os.sep + imgFilePath + getTimeStr() + ".jpg"  
                        imageFile = open(imgFilePath, "wb")  
                        imageFile.write(imgData)  
                        imageFile.close()  
                        print("下载文件", imageUrl, "成功,另存路径:" + imgFilePath)  
                    except  :  
                        print("****下载文件 ", imageUrl, " 出错:")  
parser = MyHtmlParser()  
# 解析HTML  
parser.feed(data)  
print("获取图片操作完成")  
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 编程坑太多 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档