开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何找出url是否包含img或其他文件？如何排除这些文件，只下载图片？

要找出URL是否包含img或其他文件，可以使用正则表达式来匹配URL中的文件类型。以下是一个示例代码，可以帮助你实现这个功能：

import re

def check_url(url):
    # 匹配URL中的文件类型
    file_types = re.findall(r'\.(\w+)$', url)
    
    if 'img' in file_types:
        return True
    else:
        return False

# 示例用法
url1 = 'https://example.com/image.jpg'
url2 = 'https://example.com/document.pdf'

if check_url(url1):
    print('URL包含图片文件')
else:
    print('URL不包含图片文件')

if check_url(url2):
    print('URL包含图片文件')
else:
    print('URL不包含图片文件')

上述代码使用正则表达式 \.\w+$ 来匹配URL中的文件类型，然后判断是否包含img文件类型。如果包含img文件类型，则返回True，否则返回False。

如果你只想下载图片文件，可以在代码中添加相应的逻辑来实现。以下是一个示例代码，可以帮助你实现只下载图片的功能：

import requests
import re

def download_image(url, save_path):
    response = requests.get(url)
    
    # 获取文件名
    file_name = re.findall(r'/([^/]+)$', url)[0]
    
    # 判断文件类型是否为图片
    file_type = re.findall(r'\.(\w+)$', file_name)[0]
    if file_type.lower() not in ['jpg', 'jpeg', 'png', 'gif']:
        print('文件类型不是图片，无法下载')
        return
    
    # 保存图片
    with open(save_path + file_name, 'wb') as f:
        f.write(response.content)
    
    print('图片下载完成')

# 示例用法
url1 = 'https://example.com/image.jpg'
url2 = 'https://example.com/document.pdf'
save_path = '/path/to/save/'

download_image(url1, save_path)
download_image(url2, save_path)

上述代码使用requests库来发送HTTP请求，并使用正则表达式来判断文件类型是否为图片。如果文件类型是图片，则将其保存到指定的路径中。

请注意，以上代码仅为示例，实际应用中可能需要根据具体需求进行适当的修改和优化。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

图片爬虫，Python原研哉设计作品采集爬虫源码

一个简单的图片爬虫，采集对象为原研哉设计官网的设计作品，实现了设计作品的采集爬取，包括图片及文字信息内容的采集处理，下载获取，可惜视频没找到播放链接，播放也未能实现，故没有写入处理。

02

1. python3根据Grafana图表生成图片的URL地址下载图片保存至本地

在使用grafana采集生成图表的时候，往往有需要将图表下载为图片，然后在web开发或者编写报告中使用。

02

不会玩阴阳师的我带你一键下载《阴阳师：百闻牌》所有卡牌并调用百度OCR识别文字信息

一天，一个朋友给我发来一条链接https://ssr.163.com/cardmaker/#/，让我帮他看看怎么能获取到网页中所有的图片链接。我打开链接一看，页面的标题是阴阳师:百闻牌，下面有选择栏，再下边就是各种奇奇怪怪的看不懂的图片，我就问他这是什么呀？他说是一个游戏阴阳师里边的卡牌。怪不得我没听过，因为我不玩游戏，一个准程序猿不玩游戏一定有很多人不相信，但是确实如此，我从未玩过游戏。但是这并不影响我来分析网页得到图片，网页如下：

02

自动化办公 | 批量将Excel中的url链接转成图片

小五对这个比较感兴趣，所以就要了示例数据找时间尝试做了一下。为啥感兴趣呢？因为前段时间刚帮群友做过一个相反的案例——将Excel中的图片下载到本地。

03

自己动手写工具：百度图片批量下载器

开篇：在某些场景下，我们想要对百度图片搜出来的东东进行保存，但是一个一个得下载保存不仅耗时而且费劲，有木有一种方法能够简化我们的工作量呢，让我们在离线模式下也能爽爽地浏览大量的美图呢？于是，我们想到了使用网络抓取去帮我们去下载图片，并且保存到我们设定的文件夹中，现在我们就来看看如何来设计开发一个这样的图片批量下载器。

01

Python 爬虫，peca 网站作品信息采集爬虫源码

“我看见一个男人，前几年他无忧无虑，逍遥自在，现在他，一身酒味，两眼无光，满脸憔悴，我很想心疼他一下，于是我伸手摸了一下镜子”

01

[编程经验] 我是如何半自动抓取素材公社图片的

网络爬虫是一件比较繁琐的事情，特别考验人的耐心。但又是非常令人着迷的一件事，因为当你从网络上爬到了自己的想要的数据，满满的成就感油然而生。但是我对爬虫掌握的并不好，所以我只能把我知道了，在这里做个分享，讲的不好，请见谅。记得当时找实习工作的时候，去面试某家公司的Python工程师，去了给了我一份标准的爬虫工程师的试卷，做完一脸懵逼啊！面试官都不想和我说话的感觉（./嫌弃.sh）。我觉得哈，面试者能力在差，你也不能表现出满眼的鄙视吧，这说明什么？！这种公司不去也罢！简单介绍一下我对爬虫的理解。开始学习爬虫是

05

8分钟教你快速掌握Python爬虫核心技术，批量爬取网络图片

本文主要实现一个简单的爬虫，目的是从一个百度贴吧页面下载图片。下载图片的步骤如下：

04

我用 nodejs 爬了一万多张小姐姐壁纸

哈喽，大家好，我是小马，为什么要下载这么多图片呢？前几天使用 uniapp + uniCloud 免费部署了一个壁纸小程序，那么接下来就需要一些资源，给小程序填充内容。

01

Python爬虫，pentagram图片及数据采集爬虫

很久没有写爬虫了，随手写了一个爬虫，分享给大家，目标是获取所有图片及数据内容，由于图片存在多张，故简单的采用了多线程来采集下载图片，同时也简单的运用python写入txt构建了一下爬取过程的日志文件，代码写的比较啰嗦，见谅！

02

Python爬虫，WP站图片PY多线程下载爬虫

一个简单的Python爬虫，适合学习参考练手使用，由于详情页图片较多，故简单的应用了多线程下载图片，目标站点为WordPress程序，按照流程获取都能成功！

02

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫

python爬虫，微博爬虫，需要知晓微博用户id号，能够通过抓取微博用户主页内容来获取用户发表的内容，时间，点赞数，转发数等数据，当然以上都是本渣渣结合网上代码抄抄改改获取的！

02

Python爬虫，Json数据解析图片多线程爬虫!

失踪人口回归系列，新的一年，各位大佬哥如何了，新年好！搬砖许久，很久没写爬虫了，瞎写的，随便看看就好！目标网址：https://award.kidp.or.kr/Exhibit/winners.d

01

第一篇爬虫之初体验

理论学习都是枯燥的，我们学习了初步的网络编程后，再来了解一下爬虫吧，网络爬虫可以极大增强趣味性。

03

20行Python代码爬取王者荣耀全英雄皮肤

王者荣耀大家都玩过吧，没玩过的也应该听说过，作为时下最火的手机MOBA游戏，咳咳，好像跑题了。我们今天的重点是爬取王者荣耀所有英雄的所有皮肤，而且仅仅使用20行Python代码即可完成。

00

Bmwgroupdesignworks爬虫，网站作品信息多线程采集爬虫源码!

一个比较简单国外设计站点，作品信息采集爬虫源码，比较简单，采集的内容包括标题、内容及图片信息，适合新人学习参考使用。

01

探秘Python爬虫技术：王者荣耀英雄图片爬取

作为一款风靡全球的MOBA游戏，《王者荣耀》拥有众多精美绝伦的英雄角色。玩家们对于自己心爱的英雄角色总是充满着热情和好奇。他们渴望收集自己喜欢的英雄的图片，用于做壁纸、头像或者分享给朋友。

01

[Python 爬虫]煎蛋网 OOXX 妹子图爬虫（2）——多线程+多进程下载图片

上一篇文章全面解析了煎蛋网的妹子图的图片链接解密的方式，已经可以通过 Python 爬虫代码批量获取每个页面中的图片地址。但是上一篇文章中并没有写图片下载的函数，这一篇文章就来使用 Python 的多线程和多进程来批量下载图片。

01

aiohttp 异步http请求-3.异步批量下载图片

前言当我们需要批量下载图片的时候，requests 库会比较慢，如果一个个下载，出现阻塞的时候，后面的都会阻塞卡住，假死状态。当然你用多线程也能提高效率。这里介绍用aiohttp 异步批量下载图片异步批量下载图片话不多说，直接看代码 import aiohttp import asyncio from pathlib import Path async def down_img(session, url): """下载图片""" name = url.split('/')[-1]

02

使用Python爬虫下载某网站图片

Python爬虫是一种自动化获取网页数据的技术，可以用于各种数据采集任务。本文将探讨如何使用Python爬虫下载某网站的图片。通过以下几个方面进行详细阐述。

05

探秘Python爬虫技术：王者荣耀英雄图片爬取

作为一款风靡全球的MOBA游戏，《王者荣耀》拥有众多精美绝伦的英雄角色。玩家们对于自己心爱的英雄角色总是充满着热情和好奇。他们渴望收集自己喜欢的英雄的图片，用于做壁纸、头像或者分享给朋友。然而，要手动一张一张地下载这些图片实在是太费时费力了！这时候，Python爬虫技术就可以大显身手了。

01

C++下载器程序：如何使用cpprestsdk库下载www.ebay.com图片

本文介绍了如何使用C++语言和cpprestsdk库编写一个下载器程序，该程序可以从www.ebay.com网站上下载图片，并保存到本地文件夹中。为了避免被网站屏蔽，我们使用了爬虫代理服务提供的代理IP地址，以及多线程技术提高下载效率。

00

python多线程爬虫-下载wallhaven超清壁纸

我们可以看到这个网站总共分为六个大的模块：Latest，Hot，Toplist，Random，Upload，Forums 我爬取的主要是latest，hot，toplist，random这四个模块的图片. 这四个模块对应的url网址分别为：

04

图片外链失效？npm包一次性下载/替换所有失效的外链图片

大约一个月前，微博的图片外链失效了，以及掘金因为盗链问题也于2019/06/06决定开启防盗链，造成的影响是：个人博客网站的引用了这些图片外链都不能显示。

03

谷歌插件Image downloader开发之popup

Image downloader的交互逻辑是这样的：用户点击Image downloader的图标，会向页面（content script,见上一篇文章：谷歌插件Image downloader开发之

00

Python爬虫源码，Behance 作品图片及内容采集爬虫附工具脚本！

Behance 网站是设计师灵感必备网站，想要设计作品必先学会借鉴/抄袭/白嫖，可惜这个网站需要访问国外网站才能访问，对于国人不甚友好，甚至还出现了删号，渣渣狗得很！

05

SSRF原理实战及修复方式

SSRF定义 SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。一般情况下，SSRF攻击的目标是从外网无法访问的内部系统。（正是因为它是由服务端发起的，所以它能够请求到与它相连而与外网隔离的内部系统）

01

SSRF原理实战及修复方式

SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。一般情况下，SSRF攻击的目标是从外网无法访问的内部系统。（正是因为它是由服务端发起的，所以它能够请求到与它相连而与外网隔离的内部系统）

01

爬虫的结构是什么样的呢？

在软件工程中，有着这么几个字“高内聚低耦合”，意思就是说：大模块分割成一个个小模块实现，每一个模块之间的独立性较高，修改某个模块，对其他模块或整个项目影响较小。

01

Python简单实现批量下载无版权图片

有时候我们有一些获取图片素材的需求，比如写博客或者公众号文章时，需要的插图和封面，当然这些图片必须是没有版权的免费图片，比较常用网站有pexels、pixabay等，今天再给大家介绍一个新的网站：http://alana.io/。

02

五行Python代码自动换你的电脑桌面壁纸（内附源码和exe）

只需要一行代码，指定图片地址即可更换电脑桌面。加上壁纸文件夹路径，让你随机更换电脑桌面，带来不期而遇的新鲜。使用爬虫技术，自动下载壁纸自动更换壁纸，让你的电脑每天都有焕然一新的感觉。

02

「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

前文回顾：「Python爬虫系列讲解」一、网络数据爬取概述「Python爬虫系列讲解」二、Python知识初学「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试「Python爬虫系列讲解」四、BeautifulSoup 技术「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息「Python爬虫系列讲解」六、Python 数据库知识「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取「Python爬虫系列讲解」八、Selenium 技术「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

03

Python爬虫：让“蜘蛛”帮我们工作

互联网是一个巨大的资源库，只要方法适当，就可以从中找到我们所需的数据。对于少量的数据，可以人工去找。但是对于大量的数据，如果在获取数据之后还要进行分析，则靠人工无法完成任务，这时就需要通过计算机程序帮助我们完成任务，这种程序就叫作网络爬虫（又叫作网页蜘蛛、网络机器人)。 “虫子”的第 1 阶段工作——爬取数据爬取数据一般指从指定的网址爬取网页中的HTML代码，爬取数据的核心是网络通信，可以使用Python官方提供的urllib.request模块实现，代码如下：

02

多线程or多进程爬虫案例

https://zhuanlan.zhihu.com/p/46368084 -- 来自一位知乎用户

05

多线程爬取 unsplash 图库

我公众号文章的封面配图都在 Unsplash 上找的。因为 Unsplash 是一个完全免费的、无版权的高清图片资源网站。

03

爬取数据缺失的补坑，Python数据爬取的坑坑洼洼如何铲平

渣渣业余选手讲解，关于爬取数据缺失的补坑，一点点关于Python数据爬取的坑坑洼洼如何铲平，个人的一些心得体会，还有结合实例的数据缺失的补全，几点参考，仅供观赏，如有雷同，那肯定是我抄袭的！

04

我的第六个项目：实现一个任意图片下载器

使用os、json内置模块，分别用于下载图片后文件系统建立，API的参数以json串封装。

01

如何使用PyQuery库制作一个精美的头条采集程序

我们都知道，今日头条资源丰富，又其实是平台上有许多精美的图片，可以利用进行学习。那么今天呢，我就给大家分享的是用PyQuery库编写的今日头条中的图片采集程序，代码不长，但是非常实用，一起来学习学习吧。

03

如何用python快速爬取小姐姐的美图？（终极解答）

我仔细一看：是用来爬取某个网站妹子图的代码，结果发现那个网站已经404了，当然爬不到了。

03

Python图片爬取方法总结

对于图片爬取，最容易想到的是通过urllib库或者requests库实现。具体两种方法的实现如下：

01

Python2下载单张图片和爬取网页图片

昨天用Python2爬取了一首歌的热评和评论总数，今天用Python2来下载图片。一、需求分析 1、知道图片的url地址，将图片下载到本地。 2、知道网页地址，将图片列表中的图片全部下载到本地。二、准备工作 1、开发系统：win7 64位。 2、开发环境：python2.7。 3、开发工具：PyCharm。 4、浏览器：Chrome。三、操作步骤 A.知道图片的url地址，将图片下载到本地。 a1、打开Chrome，随意找到一个图片网站。 📷 a2、打开开发者工具（f12键或者fn+f12键），选择第

09

03_多协程爬取糗事百科热图

今天在使用正则表达式时未能解决实际问题，于是使用bs4库完成匹配，通过反复测试，最终解决了实际的问题，加深了对bs4.BeautifulSoup模块的理解。

02

用Python爬取手机壁纸，太简单了吧！

在Python爬虫的学习过程中，爬取图片几乎是每个初学者都练习过的项目，比如我们之前就分享过：如何用Python快速爬取小姐姐的美图？

04

用 Puppeteer 把繁琐工作给自动化了，太爽啦！

这意味着如果文中有几十张图片，那我需要单独把这几十张图片保存到本地，然后光标定位到对应位置，点击上传图片，把图片插进去。

03

Python3爬取英雄联盟所有英雄皮肤

打开英雄联盟官网，点击游戏资料，继续按F12，按F5刷新，就会发现有一个champion.js文件，复制这个js文件的地址.和王者荣耀不同，这个是js而王者是json比较好处理。js中有英雄的编号和名字，将keys中的数据拿出来

03

Python爬虫，高清美图我全都要（彼岸桌面壁纸）

本人比较喜欢收集壁纸，发现彼岸桌面壁纸唯美分类下的壁纸，我都很喜欢；于是写了个爬虫，后来发现整个网站的网页结构基本一致，于是加了点代码，把整个网页的高清壁纸都爬下来了

01

Python 爬虫，fuseproject 网站作品信息采集爬虫源码！

一个简单的Python 爬虫源码，网站似乎是 WrodPress ，爬虫采集的是网站里的作品信息，包括文字内容及图片，其中图片的下载采集采用了简单的多线程爬取下载。

01

图集谷-写真集-爬虫-1.0[通俗易懂]

代码中的path_name，由于我编写这个爬虫的时候用的是Linux系统，所以文件目录不一样，各位用windows系统的小伙伴儿们请自行修改。

04

巧用linux命令做图片下载器（r4笔记第7天)

在平时上网的时候，发现有些图片不错，想保存到本地，一个一个的保存确实够费劲的，如果把整个网页都保存了，有些又是自己不需要的，就算下载下来了，还得从上百个网页元素中去筛选，哪些是css文件，哪些是js文件。如果能够使用命令来作为图片下载器就好了，至少不用那么费神的去干很多重复的工作。我们可以使用curl这个强大的工具来完成这个看似很艰难的任务。首先的难点就是从网页中抓取图片的url，一般网页中都会是以的形式出现的。我们可以使用下面的形式来抽取图片的url curl -s "$1"

06

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭