专栏首页python-爬虫练手爬虫用urllib模块获取

练手爬虫用urllib模块获取

练手爬虫用urllib模块获取

有个人看一段python2的代码有很多错误

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist 

html = getHtml("https://zwk365.com") //攒外快网
print getImg(html)

修改后python3的代码

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url) #获取网站
    html = page.read() #内容读取,返回的html是字节的格式
    return html

def getImg(html):
    # print(str(html,encoding='utf8'))   #内容以爬下来为准而不是网站上的
    reg = 'data-original="(.*?)"'  #设置下内容的re格式
    imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
    return imglist

html = getHtml("https://zwk365.com")
print(getImg(html))

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 爬虫最新的库requests-html库总结

    我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在他里面

    小小咸鱼YwY
  • django自关联,auth模块

    1.表内自关联是指表内数据相关联的对象和表是相同字段,这样我们就直接用表内关联将外键关联设置成自身表的字段

    小小咸鱼YwY
  • python爬虫爬小说网站涉及到(js加密,CSS加密)

    最后呢bingo调用html对象的render执行js代码把藏属性里的字符串拿出来

    小小咸鱼YwY
  • ajax实现简单的点击左侧菜单,右侧加载不同网页

    王小婷
  • react native使用WebView加载本地html部署方案

    十里桃花舞丶
  • 前端跨域知识简介

    前端跨域知识简介 灵感 差不多2年前,由于业务需要,了解各种各样不同的跨域方式。但由于各种方式千奇百怪,我觉得有必要将各种方法封装起来,方便使用,弄了个简单的跨...

    李成熙heyli
  • 为了不复制粘贴,我被逼着学会了JAVA爬虫

    受疫情影响一直在家远程办公,公司业务进展的缓慢,老实讲活并没有那么多,每天吃饭、睡觉、逛技术社区、写博客,摸鱼摸得爽的很。早上本来还想在来个回笼觉,突然部门经理...

    程序员内点事
  • requests-html快速入门

    版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/...

    乐百川
  • 为了不复制粘贴,我被逼着学会了JAVA爬虫

    受疫情影响一直在家远程办公,公司业务进展的缓慢,老实讲活并没有那么多,每天吃饭、睡觉、逛技术社区、写博客,摸鱼摸得爽的很。早上本来还想在来个回笼觉,突然部门经理...

    程序员内点事
  • 生信人的R语言视频教程-语法篇-第十一章:R中的网络爬虫

    用任何语言做爬虫必须要了解的就是网页语法,网页语言无非就是HTML,XML,JSON等,因为正是通过这些我们才能在网页中提取数据,过多的就不再描述,大家可以自行...

    DoubleHelix

扫码关注云+社区

领取腾讯云代金券