python爬虫

#!/usr/bin/python
import re #导入正则模块
import urllib #导入url模块
def getHtml(url): #定义获取网页函数
        page = urllib.urlopen(url) #打开页面
        html = page.read() #读取页面
        return html #返回页面
def getImg(html): #定义获取图片函数
        reg = r'src="(.*?\.jpg)" width' #定义获取的图片匹配
        imgre = re.compile(reg) #编译定义的正则
        imglist = re.findall(imgre,html) #查找页面中的图片
        x = 0
        for imgurl in imglist: #循环获取图片的名字
                urllib.urlretrieve(imgurl,'%s.jpg' % x) #传递参数给图片赋名
                x+=1
html = getHtml("http://tieba.baidu.com/p/1948539548") #定义页面地址
getImg(html) #运行函数获取图片

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python3 爬虫之爬取糗事百科

    python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误

    用户2398817
  • 简单网站登录 python3

    用户2398817
  • python与美图,呵呵,你懂的

    用户2398817
  • Angularjs 初步使用总结

    背景 在最近的一个管理后台的项目中,决定用angularjs去试一下水,后台采用express4.0的node来写,前端就直接用angularjs来实现。第一...

    IMWeb前端团队
  • Angularjs 初步使用总结

    Angularjs比较适合做SPA,所以在express中只需要把地址指导制定的html页面就好,其余的接口,全部都是面向数据即可。

    IMWeb前端团队
  • WKWebView 白屏问题

    czjwarrior
  • Android多点触控技术实战,自由地对图片进行缩放和移动

    在上一篇文章中我带着大家一起实现了Android瀑布流照片墙的效果,虽然这种效果很炫很酷,但其实还只能算是一个半成品,因为照片墙中所有的图片都是只能看不能点的。...

    用户1158055
  • Django 实现分页功能

    当页面因需要展示的数据条目过多,导致无法在一个页面全部显示。这时,页面经常会采用分页形式进行展示,然后每页显示 20 或者 50 等条数据。分页经常在网站上随处...

    猴哥yuri
  • SDN产业联盟与ONOS战略合作

    4月22日,“2015中国SDN/NFV大会”在京举行。大会上SDN产业联盟与开源组织ONOS(Open Networking Operating System...

    SDNLAB
  • 忙论文的各位注意了:自动化图片查重工具来啦!

    转眼暑期已经过去一半,想必在座的多数科研狗已经早早结束假期,踏上回校的旅途了,有些甚至埋头实验室就没有给自己安排假期!

    百味科研芝士

扫码关注云+社区

领取腾讯云代金券