专栏首页python3python实现简单爬虫--爬图片

python实现简单爬虫--爬图片

首先有两个功能需求:

第一:获取到要爬的页面html内容;

第二:使用正则表达式进行匹配并进行保存到本地。

#!/usr/bin/env python
#encoding:utf-8
import urllib
import re
def getHtml(url):
    '''获取到url的html内容'''
    page = urllib.urlopen(url)
    html = page.read()
    return html
html1 = getHtml('http://p_w_picpath.baidu.com/search/index?tn=baidup_w_picpath&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')
# print html1
# print re.findall(r'"objURL":"(.+?\.jpg)"',html1)
def downloadImg(html1):
    '''下载页面里的jpg图片'''
    reg = r'"objURL":"(.+?\.jpg)"'
    #预编译正则表达式提高运行速度
    imgreg = re.compile(reg)
    urllist = re.findall(imgreg,html1)
    num = 0
    #for循环遍历下载每个图片
    for i in urllist:
        urllib.urlretrieve(i,'%s.jpg' % num)
        num+=1
downloadImg(html1)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据分析 | 提升Pandas性能,让你的pandas飞起来!

    Pandas是Python中用于数据处理与分析的屠龙刀,想必大家也都不陌生,但Pandas在使用上有一些技巧和需要注意的地方,尤其是对于较大的数据集而言,如果你...

    叫我龙总
  • 删除系统 Python 引发的惨案

    由于实验需要使用 Python3.6 以上版本,于是决定卸载 Python3.5。

    咸鱼学Python
  • 0. 如何判断一门语言的好坏

    我在组内推广 Kotlin 遇到不少挑战,虽然我自己觉得它确实是一门优秀的语言,有着丰富的特性,能提高我们开发效率,减少 bug 的出现,但同事们并不觉得。而且...

    sickworm
  • 深度学习算法优化系列二 | 基于Pytorch的模型剪枝代码实战

    昨天讲了一篇ICLR 2017《Pruning Filters for Efficient ConvNets》 ,相信大家对模型剪枝有一定的了解了。今天我就剪一...

    BBuf
  • robot framework笔记(二):在RF中自定义chrome启动参数

    在RF的登录中引用这个自定义的关键字,执行的时候如果提示找不到关键字GET CHROME OPTIONS,加一个环境变量PYTHONPATH, value就是p...

    free赖权华
  • .whl文件在python库的安装

    https://www.lfd.uci.edu/~gohlke/pythonlibs/

    微风、掠过
  • Kotlin 从拒绝到真香

    我在组内推广 Kotlin 遇到不少挑战,虽然我自己觉得它确实是一门优秀的语言,有着丰富的特性,能提高我们开发效率,减少 bug 的出现,但同事们并不觉得。而且...

    sickworm
  • 计算机基础操作Excel函数使用1

    根据D3单元格的值,到“图书定价!$A$3:图书定价!$B$19”范围内进行匹配,根据精确匹配到的行,最终显示第二列的值。

    刘金玉编程
  • ML学习笔记之Jupyter Notebook各种使用方法

    保存后在cmd中输入:jupyter notebook,会自动触发默认浏览器打开jupyter

    Jetpropelledsnake21
  • robot framework笔记(三):扩展SeleniumLibrary库 (自定义关键字)

    以下代码GitHub 版本库地址: https://github.com/blairwind/blog_rf

    free赖权华

扫码关注云+社区

领取腾讯云代金券