开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

BeautifulSoup中的多个条件: Text=True & IMG Alt=True

BeautifulSoup 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。它通过解析文档树，使得开发者能够轻松地导航、搜索和修改解析树。在使用 BeautifulSoup 进行网页抓取时，经常需要根据多个条件来筛选特定的元素。

基础概念

Text=True: 这通常指的是查找包含文本内容的元素。
IMG Alt=True: 这是指查找具有 alt 属性的 <img> 标签。

相关优势

灵活性: BeautifulSoup 提供了多种查找元素的方法，可以根据标签名、属性、文本内容等多种条件进行筛选。
易用性: 即使是没有正则表达式基础的用户也能轻松上手，因为它提供了直观的 API。
容错性: 即使 HTML 结构不完整或格式不规范，BeautifulSoup 也能正确解析。

类型与应用场景

类型: BeautifulSoup 支持多种解析器，如 lxml 和 html.parser。
应用场景: 网页抓取、数据挖掘、自动化测试等。

示例代码

假设我们要从一个网页中找出所有既有文本内容又有 alt 属性的 <img> 标签，可以使用以下代码：

from bs4 import BeautifulSoup

html_doc = """
<html>
<head><title>Test Page</title></head>
<body>
<div>
    <p>Some text here.</p>
    <img src="image1.jpg" alt="Image 1">
</div>
<div>
    <img src="image2.jpg">
    <p>More text here.</p>
</div>
<div>
    <img src="image3.jpg" alt="Image 3">
    <p>Even more text here.</p>
</div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# 查找所有既有文本内容又有 alt 属性的 img 标签
results = soup.find_all('img', alt=True)

for img in results:
    # 确保 img 标签的父元素包含文本内容
    if img.find_parent().find(text=True):
        print(img['alt'])

遇到的问题及解决方法

问题: 如何确保找到的 `<img>` 标签不仅有 `alt` 属性，而且其所在的父元素也包含文本内容？

原因: 单纯使用 alt=True 只能保证 <img> 标签有 alt 属性，但不能保证其父元素有文本内容。

解决方法: 使用 find_parent() 方法结合 find(text=True) 来检查父元素是否包含文本内容。

for img in results:
    parent_contains_text = img.find_parent().find(text=True)
    if parent_contains_text:
        print(f"Found image with alt '{img['alt']}' and parent containing text.")

通过这种方式，我们可以确保筛选出的 <img> 标签不仅具有 alt 属性，而且其所在的父元素也包含文本内容，从而更精确地满足我们的需求。

相关搜索:条件检查中true和#{true}之间的jsf差异等待bash中的条件变为true 实体上的多个where条件导致只读属性为true 暂停脚本，直到powershell中的条件为true 条件类型中的boolean[]扩展为true[] | false[]选择pandas中条件为true的所有行在嵌套的if循环中，如何为多个匹配条件返回true？仅当R中的条件为True时打印 deepToString中的此条件何时会计算为true？在DataFrame中删除条件给出true或false的行如果Python中的条件为True，则跳过代码块如何在查询条件部分的IIF语句中获得多个True结果编写单个SQL查询来计算具有"True“条件的多个布尔列的计数在Django模板中无法获取触发条件为true的if 在if条件中，对于相同的条件，等于和不等于都返回true 在基于条件的嵌套列表中查找连续的True和False 请解释一下if条件中的true指的是什么？PHP 2个条件中的1个为false，但它标记为true 如果js中的true条件不起作用，为什么会这样呢？更改每次单击时返回的true/false，尽管NETLOGO中的条件另有说明

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

50 行 Python 代码抓取 divnil 动漫妹子图！

= BeautifulSoup(resp.text, "html.parser") contents = soup.findAll("div", id="contents")[0] wallpapers...= True: os.mkdir("....CODE: %d" % (url, resp.status_code)) continue soup = BeautifulSoup(resp.text, "html.parser") img...].replace("../", "") img_name = img[ alt ] print("start download %s ..." % img_url) resp = requests.get...= img[ alt ] print("start download %s ..." % img_url) resp = requests.get

6361 0

Python爬虫 - 抓取divnil动漫妹子图

= BeautifulSoup(resp.text, "html.parser") contents = soup.findAll("div", id="contents")[0] wallpapers...= True: os.mkdir("....CODE: %d" % (url, resp.status_code)) continue soup = BeautifulSoup(resp.text, "html.parser")...['"original'].replace("../", "") img_name = img['alt'] print("start download %s ..." % img_url)...img_name = img['alt'] print("start download %s ..." % img_url)

6514 0

Python爬虫-萌妹子图片

import requests as re from bs4 import BeautifulSoup import os #import threading #定义一个爬去图片的类 class Spider...else: # 如果目录存在则不创建，并提示目录已存在 return False #下载每期的图片，并放入以标题为名字的目录中...(res.text, "html.parser") imgs = soup.select("article.article-content > p > img")#根据元素匹配所有的图片地址...self.saveImg(imgurl, img.attrs.get("alt")+"\\"+str(i)+".jpg")#保存图片 i=i+1 #获取页面上所有的期数连接...def GetAllPageUrl(self,url): res=re.get(url) soup=BeautifulSoup(res.text, "html.parser

6641 0

Python爬虫基础

img src="(.*?)" alt.*?...) bs4数据解析原理: 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关属性或方法进行标签定位和数据提取环境安装 pip...= requests.get(detail_url, headers=headers).content # 解析出详情页中相关的章节内容 detail_soup = BeautifulSoup...xpath 解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中调用etree 对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获环境安装 pin install.../a/img/@alt')[0] + '.jpg' # 通用中文乱码的解决方案 img_name = img_name.encode('iso-8859-

4092 0

Python 从底层结构聊 Beautiful Soup 4（内置豆瓣最新电影排行榜爬取案例）！

.element.Tag'> img alt="青春变形记" class="" src="https://img1.doubanio.com/view/photo/s_ratio_poster/public...找到了 img 标签对象，再分析出其图片路径就容易多了，图片路径存储在 img 标签的 src 属性中，现在只需要获取到 img 标签对象的 src 属性值就可以了。...'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2670448229.jpg', 'width': '75', 'alt':...'青春变形记', 'class': []} ''' 单值属性返回的是单值，因 class 属性（多值属性）可以设置多个类样式，返回的是一个数组。...两者的区别：前者搜索到第一个满足条件就返回，后者会搜索所有满足条件的对象。

1.2K1 0

python3爬取墨迹天气并发送给微信好

().replace('°','℃')+ ',' + tomorrow[1].find('img').attrs['alt']#明日温度 S_t1 = tomorrow[3].find('em').get_text...查找单标签中的内容，例如img alt=**** src=‘***************************.jpg’>这种，想查alt等号后面的内容，或者src后面的连接，用正则感觉很麻烦 #...初次链接会弹出二维码，手机扫二维码登陆 #链接微信 itchat.auto_login(hotReload=True) #在一段时间内运行不需要扫二维码登陆全部代码 """ 从墨迹天气中获取天气信息...alt=***** src="*************************.jpg">标签的查找 temp_t = tomorrow[2].get_text().replace('°','℃...')+ ',' + tomorrow[1].find('img').attrs['alt']#明日温度 S_t1 = tomorrow[3].find('em').get_text() S_t2 =

1.1K1 0

妹子图爬虫

img_name = etree.HTML(r).xpath('//div[@class="main-image"]/p/a/img/@alt')[0] print(img_name) # with...(j, headers=HEADERS, timeout=10).text img_url = etree.HTML(r).xpath('//div[@class="main-image...) if not os.path.exists(PATH): os.makedirs(PATH) os.chdir(PATH) return True print("Folder...相关文章: Python requests socks代理 Ganlinmu Spider 美图录爬虫获取网页中所有的文字 missdica.com爬虫【美女图片爬虫】基于ffmpeg的m3u8...下载[调整key替换逻辑，更新解析逻辑] QQ音乐导出 IDA批量模式 Python Script[fix] BeautifulSoup抓取js变量 ncm2mp3

3944 0

要不是真的喜欢学技术，谁会来爬小姐姐啊。

我们通过鼠标定位到我们需要爬取的图片的信息就在上图红色方框中，并且通过观察页面的格式我们发现大体格式基本一样，基本都是下面这种样式： img alt="酸酸的，甜甜的-唯美女生" width="2904..."> 并且通过分析我们可以得到图片的链接其实就在img的data-pagespeed-lsc-url属性之中，那么我们就来尝试先将所有的img空间爬取下来 import requests from bs4...soup = BeautifulSoup(html, "html.parser") for item in soup.find_all("img", class_="alignnone size-full...但是当我们爬取下来之后发现img控件中并没有data-pagespeed-lsc-url这个属性，那么我们怎么办呢？...COOKIE数据，建议做好复制浏览器中自己的cookie，并且主要是针对下载文件时请求网页的请求头整体流程; 1.获取首页的所有页面链接 """解析网页获取到所有页面的URL""" def getlink

4853 0

『Python开发实战菜鸟教程』实战篇：爬虫快速入门——统计分析CSDN与博客园博客阅读数据

表示超链接 CSS CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。...交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。如果用人体来比喻，HTML 是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。...，代码如下： strhtml = request.get(url) 这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示网页源码： strhtml.text...这里将解析后的文档存储到新建的变量 soup 中，代码如下： soup=BeautifulSoup(strhtml.text,'lxml') 接下来用 select（选择器）定位数据，定位数据时需要使用浏览器的开发者模式...就可以获取到元素中的文本，但是注意是字符串类型的。

1.3K3 0

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

= bytes.decode(html.read()) print(html_text) 通常情况下，我们可以获取这个菜谱网页的完整内容，就像我们在浏览器中按下F12查看的网页源代码一样。...(li.get_text()) 主要步骤是，首先在上一步中打印出HTML页面，然后通过肉眼观察确定所需内容位于哪个元素下，接着利用BeautifulSoup定位该元素并提取出所需信息。...()) # print(html_text) obj = bf(html_text,'html.parser') index_hotlist = obj.find_all('img...') for p in index_hotlist: if p.get('alt'): print(p.get('alt')) 这里我们在这个网站上找到了新的链接地址...('a',class_='img') # 分别打印每个图片的信息 url = index_hotlist[0].get('href') html = urlopen(url) html_text = bytes.decode

9695 2

用Python抓取在Github上的组织名称

库，还有bs4中的BeautifulSoup。...tab=overview&org=python" style="max-width: 181px;"> img alt="" class="avatar mr-1" height="20" src...tab=overview&org=deadsnakes" style="max-width: 181px;"> img alt="" class="avatar mr-1" height="20...tab=overview&org=realpython" style="max-width: 181px;"> img alt="" class="avatar mr-1" height="20...首先，移除比必要的属性，为此创建一个Cleaner的实例，然后设置实例属性safe_attrs_only=True的值为True，与其关联的属性safe_attrs，利用frozenset创建一个不可变对象

1.7K2 0

AI办公自动化:deepseek批量提取网页中的人名

="flex flex-col gap-4">img alt="" loading="lazy" decoding="async...，在这个div元素中定位class="hidden text-time-black md:block"的a元素，提取a元素中h3元素的文本内容，写入Excel表格第1列；提取a元素中p元素的文本内容，写入...Excel表格第2列；然后在这个div元素中定位class="flex flex-col gap-4"的a元素，提取a元素中h3元素的文本内容，写入Excel表格第1列；提取a元素中p元素的文本内容，...'a', class_='hidden text-time-black md:block'): h3_text = a_tag.find('h3').get_text(strip=True) p_text...'flex flex-col gap-4'): h3_text = a_tag.find('h3').get_text(strip=True) p_text = a_tag.find('p').get_text

2041 0

爬虫解析

的两种从而获得想要获取的数据就比如说在分页爬取的时候中间的 ex = '.*?img src="(.*?)" alt.*?...img src="(.*?)" alt.*?...BeautifulSoup对象中相关的属性或者办法进行标签定位 from bs4 import BeautifulSoup if __name__ == '__main__': fp = open...('.tang > ul a')[0])#空格表示多个层级 #获取标签之间的文本数据 text 和get_text()可以获取标签中的所有文本内容 #.../body/div/text()')#在HTML前边加一个/标识从根节点开始后边的/标识一个层级 # r=tree.xpath('/html//div')#//表示多个层级 #r=tree.xpath

5953 0

使用python多进程爬取高清美图

3.1.4 获取某个标签里的某个属性 soup.p['class'] 执行结果 ['title'] 3.2 使用Tag对象 Tag对象跟原生的 xml 或者 html 中的 tag(标签)相同，可以直接通过对应的名称来获取...(t.name) print(t.string) 结果为 a Elsie 可见，name即为标签的名称，string即为标签中包含的字符串。...(r.string) 这里就是获取标签中包含的字符串，结果如下： Elsie Lacie Tillie 3.3.2 自定义正则表达式进行搜索 soup = BeautifulSoup(html_doc...，id=link+数字，满足条件的就是那三个a标签 Elsie img alt="loading

9880 0

Python爬虫入门：爬取pixiv

def get_img(self, html, page_num): li_soup = BeautifulSoup(html, 'lxml') # 传入第page_num页的html...# 获取图片的html # print('get_jump_to_html succeed') img_soup = BeautifulSoup(jump_to_html...title = img_info.find('img')['alt'] # 提取标题 src = img_info.find('img')['src'] # 提取图片位置...('img')['alt'] # 提取标题 src = img_info.find('img')['src'] # 提取图片位置 src_headers = self.headers...title = img_info.find('img')['alt'] # 提取标题 src = img_info.find('img')['src'] # 提取图片位置

4.3K3 0

BeautifulSoup 简述

BeautifulSoup 支持 Python 标准库中的 HTML 解析器，也支持其他解析器。...，一定是html中第一个同类型的标签。...上面的例子还演示了如何取得节点对象的所有的属性和指定属性。当class属性有多个值时，返回的是一个列表，而id属性不承认多值。...搜索节点一般使用 find() 和 find_all() 搜索符合条件的第一个节点和全部节点的列表。...'div' >>> soup.find_all(id=True)[0].name # 查找有id属性的节点 'div' >>> soup.find_all(attrs={"id":"My gift"}

1.1K2 0

Python3网络爬虫(十)：这个帅哥、肌肉男横行的世界（爬取帅哥图）

爬取单页目标连接通过审查元素，我们不难发现，目标的地址存储在class属性为”item-img”的标签的href属性中。...[] for each in targets_url: list_url.append(each.img.get('alt') + '=' + each.get('href')...) print(list_url) 我们将爬取的信息保存到list中，图片名字和图片地址使用”=”连接，运行结果： ?...可以看到，图片地址保存在了class属性为”wr-single-content-list “的div->div->img的src属性中。 ? ...= img_req.text img_bf_1 = BeautifulSoup(img_html, 'lxml') img_url = img_bf_1.find_all

1K6 0

爬取表情包

，把不想要的数据抛弃掉 *Beautifulsoup：pip install bs4 *lxml:pip install lxml 3、将解析后的数据保存下来，如果是文字类型，可以保存到文件中或者数据库中或者缓存中...url链接，相当于增加IMG_URLS中的数据''' while True: gLock.acquire()#多线程对全局变量操作必须加锁 if len(PAGE_URLS...= response.text # print text soup = BeautifulSoup(text, 'lxml')#实例BeautifulSoup对象解析数据...(img_url) gLock.release() def consumer(): '''消费者：专门从表情包的url链接中下载图片,相当于消耗IMG_URLS中的数据...IMG_URLS为空，所以加上PAGE_URLS同时为空才是结束条件 gLock.release() break if len(IMG_URLS

1.8K3 0

Python 页面解析：Beautiful Soup库的使用

，它可以从 HTML 或 XML 文档中快速地提取指定的数据。...： 2.1 find_all() find_all() 方法用来搜索当前 tag 的所有子节点，并判断这些节点是否符合过滤条件，最后以列表形式将符合条件的内容返回，语法格式如下： find_all...text：用来搜文档中的字符串内容，该参数可以接受字符串、正则表达式、列表、True。...Beautiful Soup 提供了一个 select() 方法，通过向该方法中添加选择器，就可以在 HTML 文档中搜索到与之对应的内容。.../') soup = BeautifulSoup(x.text, 'lxml') img_list = soup.select('img[src]') # 创建img文件夹 os.chdir(os.path.dirname

1.7K2 0

python 爬取淘宝模特信息

# -*- coding:utf-8 -*- #模块导入 import requests from bs4 import BeautifulSoup #想要分析的网站页面 url = "http... = 'gb2312' text = response.text soup = BeautifulSoup(text, 'lxml') for model... = response_json.text soup_json = BeautifulSoup(text_response_json, 'lxml') ...][0] print model.find('ul', {'class': 'info-detail'}).get_text(" ",strip=True) ..."模特的个人头像：" + "http:" + model.find('img')['src'] print "******************************

5481 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭