专栏首页python3python写网络爬虫

python写网络爬虫

#!/usr/bin/evn python

-- coding: cp936 --

import re #导入正则表达式模块 import urllib #导入urllib模块,读取页面与下载页面需要用到 def getHtml(url): #定义getHtml()函数,用来获取页面源代码 page = urllib.urlopen(url) #urlopen()根据url来获取页面源代码 html = page.read() #从获取的对象中读取内容 return html def getImage(html): #定义getImage()函数,用来获取图片地址并下载 reg = r'src="(.*?.jpg)" width' #定义匹配图片地址的url的正则表达式 imgre = re.compile(reg) #对正则表达式进行编译,运行效率更高 imagelist = imgre.findall(html) #使用findall()查找html中匹配正则表达式的图片url x = 0 for imageurl in imagelist: urllib.urlretrieve(imageurl,'picture_%s.jpg' % x) #urlretrieve()下载文件 x +=1 uri = raw_input("请输入网址: ") r = r'^http://' if re.match(r,uri): html2 = getHtml(uri) else: html2 = getHtml("http://" + uri) getImage(html2) 运行脚本test.py

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python与美图,呵呵,你懂的

    用户2398817
  • Python爬虫-04:贴吧爬虫以及GE

    如果你复制粘贴下来这个网址,出来的不是汉字,而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5...

    用户2398817
  • python中的urllib模块中的方法

    urllib.request模块定义了一些打开URLs(一般是HTTP协议)复杂操作像是basic 和摘要模式认证,重定向,cookies等的方法和类。这个模块...

    用户2398817
  • Spring Boot 2.x 启动全过程源码分析(全)

    上篇《Spring Boot 2.x 启动全过程源码分析(一)入口类剖析》我们分析了 Spring Boot 入口类 SpringApplication 的源码...

    Java技术栈
  • [桌面版] 在 Mockplus 2.1 (预览版)中使用切换面板

    1、添加切换面板 2、双击编辑切换面板当前页。 3、退出当前页编辑,点击组件上工具条上的加号,增加一个内容页并编辑内容 4、添加响应用户事件的组件。...

    奔跑的小鹿
  • 机器学习算法在预测化学品的毒性方面胜过动物试验

    研究人员报告称,用大量化学安全性数据进行训练的机器学习软件能够很好地预测某种毒性,而这样的预测甚至可以与昂贵的动物研究结果相媲美,有时甚至准确率更高。

    AiTechYun
  • 移动网络运营商:利用SIM的力量克服物联网挑战

    物联网(IoT)的扩张对于物联网的垂直行业和移动网络运营商(MNO)来说是一个巨大的发展机遇,但是机遇与挑战并存。在最近的一次针对正在路上行驶的吉普车的黑客攻击...

    PekQ
  • 聊聊rocketmq的RemotingSendRequestException

    本文主要研究一下rocketmq的RemotingSendRequestException

    codecraft
  • 聊聊rocketmq的RemotingSendRequestException

    本文主要研究一下rocketmq的RemotingSendRequestException

    codecraft
  • 神奇的go语言(高级应用)

    其实有了上一篇的基本语法,我们就可以做一些简单的事情,比如说文件服务器。或许大家有点不相信,没关系。下面开始用代码来说明问题,其实整个代码的内容不会超过十行。 ...

    李海彬

扫码关注云+社区

领取腾讯云代金券