首页
学习
活动
专区
工具
TVP
发布

网站文章将图片保存到本地并将HTML的src属性更改到本地

每次当你爬一篇文章时,不管是从csdn或者其他网站,基本内容都是保存在一个富文本编辑器中,将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。...我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换,按照原文章排版顺序替换。 话不多说,直接上代码 #!...urllib.request.urlopen(url) # 读取页面内容 html = page.read() return html def getImg(html): reg = r'src...imglist = re.findall(imgre, html) x = 0 # 循环 for i in range(len(imglist)): # 保存图片...# urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x) # 根据每个图片src的内容进行替换 html

1.8K31
您找到你想要的搜索结果了吗?
是的
没有找到

利用xpath爬图片

学习了xpath后,又有一个实战二了,利用xpath爬网站上的图片,由于学的时候疯狂报错,决定再做一遍,然后逐步分析,加深理解,后续学习一下怎么爬豆瓣评分前100的电影,然后以CSV的格式展示(...etree # 数据解析用的 import os # 这个是关于处理文件的模块 接下来看一下要爬的页面,是一个图片网站,这次要爬图片是里面的美食图片。...可见图片是在一个img标签下的,图片的部分地址在src中,而图片的名称在alt中。现在收起这个标签,再看看其他的图片所在的位置。.../picture") for li in li_list: # 获得每张图片的地址,由于标签下的src不完整,所以需要拼接 # 利用xpath解析的结果返回的是一个列表.../a/img/@src")[0] # 存储时用的文件名,后面要加上后缀,否则图片的格式会出错 name_list = li.xpath(".

1K10

简单的图片,爬豆瓣电影图片并保存到本地

话不多说,开始爬豆瓣电影Top250(这次仅仅爬电影图片并保存到本地)。...一、前提准备 在爬所要爬的东西时,我们要先有所要爬取信息的网址,其次我们要心中有数,要先做好规划,然后才能补全代码,进行爬。 1、对页面进行分析 ?...打开以后,我们需要找到此次爬重点:图片以及电影名称 ? 我们可以先把小的标签头缩小,看下所有的电影的标签: ?...好了,以上的为保存图片所需要的步骤。 ③分析网页一页有多少电影,以及每一页之间的联系 ? 由上面我们可以知道每一页可以自己构造页数。 2、准备框架 ?...并且此代码仅仅只是爬电影图片。可拓展性还很强。 第一次写博客,有些没有说明白地方可以留言或者私信我,我会改正并争取早日称为一个合格的博主的。 最后放出程序运行成功的截图: ?

2.2K31

Python简单爬图片实例

page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = 'src...上面说了要注意的一点是,由于很多网站会禁止人们随意爬数据,有反爬虫的技术,所以在选择要爬的网站的时候,最好先通过这个方法获取网站源代码,然后 print 输出 html 变量看一下获取到的内容是否是正常的网页源代码...在这个方法中,我们设置了一个正则表达式,用来在网页源代码中找到图片的资源路径,这个正则表达式要根据不同的网站去具体设置,比如我爬的这个网站,图片对应的源代码是这样的: image.png 因此我们设置的正则表达式就是...reg = 'src="(.+?....下载图片 最后一步就是下载图片,这里我们用 for 循环,将图片资源路径中的每个图片,使用 urllib 库的 urlretrieve 函数来下载图片,这个函数其实可以接受很多参数,这里我们设置了要下载的图片资源路径和要命名的名字

40140
领券