专栏首页编程珠玑python爬取知乎话题图片

python爬取知乎话题图片

前言

什么是网络爬虫(也叫网络蜘蛛)?简单来说,是一种用来自动浏览万维网程序或脚本(网络爬虫的典型应用就是我们所熟知的搜索引擎)。既然如此,那么我们也可以写一个程序,用来自动浏览或者获取网页上的信息。本文将介绍利用python自带库编写一个简单的爬虫程序来获取网络信息。

准备

本次爬取实例可能涉及以下知识:

  • python基础知识
  • urllib库使用
  • http基本知识
  • html/js基本知识
  • 正则表达式

环境准备:

  • linux(windows基本适用)
  • python3
  • chrome浏览器

爬取目标

本次爬取的目标是知乎话题下的图片。

分析

以知乎话题你有哪些压箱底的表情包?为例

(链接地址:https://www.zhihu.com/question/48132860): 用chrome浏览器打开该链接。鼠标右键-检查元素,在elements页移动鼠标,当鼠标移动到某元素时,页面会被选中,因此我们可以找到第一张图片的img标签,而在标签中,我们可以找到图片的url地址,复制url地址,在浏览器打开,我们就看到了需要下载的表情包了。 至此,整体思路就很简单了:访问话题页--找到img标签--获取图片url地址--下载图片。

查找链接

代码

#!/usr/bin/python3
#coding=utf-8
import urllib.request as request
import urllib.parse as parse
import string
import sys
import re
import os
import urllib.error as error

'''
获取url中的图片
url:链接地址
dirpath:保存路径
'''
def getUrlImage(url,dirpath):

    dldNum=0
    #存储目录不存在时,创建目录
    if not os.path.isdir(dirpath):
        os.makedirs(dirpath)

    data = request.urlopen(url).read()
    page_data = data.decode('gbk','ignore')
    #获取img标签数据
    page_image = re.compile('<img src=\"(.+?)\"')
    #循环获取img标签中的图片

    for image in page_image.findall(page_data):
        #匹配数据中的图片
        pattern = re.compile(r'^https://.*.(jpg|png|gif|jpeg)$')
        if  pattern.match(image):
            print (image)
            try:
                extension =  GetFileNameAndExt(image)
                #读取图片内容
                image_data = request.urlopen(image).read()
                image_path = dirpath+'/'+str(dldNum)+extension
                dldNum += 1
                print(image_path)
                #保存图片
                with open(image_path, 'wb') as image_file:
                    image_file.write(image_data)
                    image_file.close()
            except error.URLError as e:
                print('Download failed')
'''
获取文件名中的扩展名
'''
def GetFileNameAndExt(filename):
    (filepath,tempfilename) = os.path.split(filename);
    (shotname,extension) = os.path.splitext(tempfilename);
    return extension
'''
入口函数
带两个参数
参数1:话题链接地址
参数2:图片保存路径
'''
if __name__ == "__main__":
    if(len(sys.argv) < 2):
        print("usage:./download_spider.py url  savePath")
    else:
        print("the url is "+str(sys.argv[1]))
        print("the save path is "+str(sys.argv[2]))
        url = sys.argv[1]
        savePath = sys.argv[2]
        getUrlImage(url,savePath)

运行

有两个参数,第一个参数是url,即话题的链接,第二个参数是所要保存图片的路径。 在linux下运行,可以看到正在不断保存话题图片

./getZhiHuImage.py  https://www.zhihu.com/question/48132860 ./test

程序执行完成后可以在目的目录下发现下载好的图片,接下来就可以开心地去斗图啦。

下载结果

下载结果2

最后说两句

本文仅简单利用了python自带urllib库完成了话题图片的获取工作,但更多时候,爬取网络资源要更困难得的多,要获取的内容也不像本文例子中那么明显易得到,比如可能需要模拟登录,验证码识别,伪装成浏览器,去重等等,这里不再展开。但是Python中自带urllib及urllib2 库,基本上能满足一般的页面抓取了。

本文分享自微信公众号 - 编程珠玑(shouwangxiansheng),作者:守望先生

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 理一理字节对齐的那些事

    字节对齐是我们初学C语言就会接触到的一个概念,但是到底什么是字节对齐?对齐准则又是什么?为什么要字节对齐呢?字节对齐对我们编程有什么启示?本文将简单理一理字节对...

    编程珠玑
  • 如何从40亿个整数中找到不存在的一个

    给定一个最多包含40亿个随机排列的32位的顺序整数的顺序文件,找出一个不在文件中的32位整数。(在文件中至少确实一个这样的数-为什么?)。在具有足够内存的情况下...

    编程珠玑
  • 几个无聊但你可能忽略的C知识点

    注意,使用函数前一定要声明,对于没有声明,而试图使用,可能会错将int用成其他类型,导致灾难。参考《记64位地址截断引发的挂死问题》

    编程珠玑
  • 编码蓝幕/证件照背景替换

    此时你会发现背景可能是红色,不是预料的蓝色,这是因为OpenCv会把彩色图像读取成BGR(蓝绿红)图像

    小飞侠xp
  • 应对掘金CDN开启防盗链 记一次爬取markdown图片的经历

    原来我喜欢在 掘金或简书后台 写markdown文章, 然后复制粘贴到 gitbook(前提是gitbook已经和github做了关联), 就可以发布到gith...

    zhaoolee
  • knn算法,识别简单验证码图片

    声明:本文均在pycharm上进行编辑操作,并本文所写代码均是python3进行编写,如果不能正常运行本文内的代码,请自己调试环境

    十四君
  • Angular实战项目(1)

    环境搭建,Material UI,动画,Angular核心概念,RxJS操作符,Angular中的响应式编程,Redux,自动化测试

    达达前端
  • 两个斐波拉切数列运算的时间复杂度 顶

    有人提出了递归算法的时间复杂度问题,的确如此,递归的时间复杂度是随着数量级成指数增长的。

    算法之名
  • 漫漫大学江湖录 - 爱与恨唯与工作更交织

    其实在18年11月有了华为,就已经宣告结束了大学校招历程,是时候写下总结了,再不写估计很多东西都忘了。

    JavaEdge
  • mpvue开发小程序

    beforeCreate created beforeMount mounted beforeUpdate updated activated d...

    达达前端

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动