文章/答案/技术大牛

发布

BeautifulSoup:有没有办法设置find_all()方法的起始点？

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库。它提供了一种简单的方法来提取页面中的数据。find_all() 方法是 BeautifulSoup 中非常常用的一个方法，用于查找文档中所有匹配的标签。

基础概念

find_all() 方法的基本语法如下：

soup.find_all(name, attrs, recursive, text, **kwargs)

name：标签名，如 'div', 'a' 等。
attrs：一个字典，用于查找具有指定属性的标签。
recursive：布尔值，表示是否递归查找子标签，默认为 True。
text：查找包含指定文本的标签。
**kwargs：其他属性，如 class_, id 等。

类型

根据标签名查找。
根据属性查找。
根据文本内容查找。
组合查找条件。

应用场景

网页数据抓取。
数据清洗和分析。
自动化测试。

设置 `find_all()` 方法的起始点

BeautifulSoup 的 find_all() 方法本身没有直接提供设置起始点的参数。但是，你可以通过以下几种方法间接实现类似的效果：

1. 使用 `find()` 方法获取起始标签

你可以先使用 find() 方法找到一个起始标签，然后从这个标签开始查找其子标签。

from bs4 import BeautifulSoup

html = """
<html>
<head><title>Example</title></head>
<body>
    <div class="container">
        <p>Paragraph 1</p>
        <p>Paragraph 2</p>
    </div>
    <div class="container">
        <p>Paragraph 3</p>
        <p>Paragraph 4</p>
    </div>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')
start_div = soup.find('div', class_='container')

# 从 start_div 开始查找所有 p 标签
paragraphs = start_div.find_all('p')
for p in paragraphs:
    print(p.text)

2. 使用 CSS 选择器

BeautifulSoup 支持使用 CSS 选择器进行查找，你可以通过选择器指定起始点。

from bs4 import BeautifulSoup

html = """
<html>
<head><title>Example</title></head>
<body>
    <div class="container">
        <p>Paragraph 1</p>
        <p>Paragraph 2</p>
    </div>
    <div class="container">
        <p>Paragraph 3</p>
        <p>Paragraph 4</p>
    </div>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

# 使用 CSS 选择器从第一个 .container 开始查找所有 p 标签
paragraphs = soup.select('.container:first-child p')
for p in paragraphs:
    print(p.text)

遇到的问题及解决方法

如果你在使用 find_all() 方法时遇到了问题，可能是由于以下原因：

标签名或属性拼写错误：确保你输入的标签名和属性名是正确的。
递归查找问题：如果你不希望递归查找子标签，可以将 recursive 参数设置为 False。
选择器语法错误：确保你使用的 CSS 选择器语法正确。

参考链接

通过上述方法，你可以灵活地设置 find_all() 方法的起始点，并解决在使用过程中遇到的问题。

BeautifulSoup:有没有办法设置find_all()方法的起始点？

、、

这可以通过以下方式完成： soup.find_all(class_='foo', limit=n) 然而，这是一个缓慢的过程，因为我试图查找的元素位于文档的最底部。下面是我的代码： main_num = 1 main_page = 'https://rawdevart.com/search/?

浏览 23提问于2021-02-11得票数 2

回答已采纳

1回答

将字符串转换为bs4.element模块的ResultSet对象

、

有没有办法将我的BeautifulSoup的ResultSet对象保存到一个文件中，然后读取该文件并能够使用find_all等命令例如，我的代码是 import requestswebsite_link = 'https://stackoverflow.com/' request1 = requests.get(webs

浏览 112提问于2020-11-02得票数 2

回答已采纳

2回答

BeautifulSoup中"findAll“和"find_all”的区别

、、、

我想用Python解析一个HTML文件，我使用的模块是BeautifulSoup。import urllib, urllib2, cookielibsite = "http://share.dmhy.orgteam_id%3A407" r

浏览 5提问于2012-09-09得票数 39

回答已采纳

1回答

无论其中是否有元素，都可以使用`find_all`按文本查找元素

、

例如print bs.find_all("a",text=re.compile(r"some"))当搜索的元素具有子级时返回[<a>sometext</a>]，即img bs = BeautifulSoup("<html><a>sometext&

浏览 2提问于2013-04-19得票数 6

回答已采纳

0回答

BeautifulSoup.find_all()方法不能与命名空间标记一起使用

、、、

今天，我在使用BeautifulSoup时遇到了一个非常奇怪的行为。使用find方法时，一切正常： >>> <ix:nonfraction>lele</ix:nonfraction>

浏览 2提问于2017-06-21得票数 9

回答已采纳

2回答

列表中的BeautifulSoup find_all

、

我正在尝试使用BeautifulSoup find_all命令两次。我第一次使用它来查找所有的表标签。然后，我在一个循环中使用了几个if语句，以缩小添加到列表中的表标签的数量。最后，我尝试在我的list上使用find_all命令，并收到错误"'list‘对象没有属性'find'“。我知道这个错误基本上是说find_all不能查看列表，但我想不出任何其他方法来整理我的数据。有没有</em

浏览 15提问于2019-07-29得票数 0

回答已采纳

3回答

BeautifulSoup `find_all`发生器

、、

有没有办法把find_all变成一个内存效率更高的生成器？例如：soup = BeautifulSoup(content, "html.parser")我想代之以： soup = BeautifulSoup这里有一些内置的生成器，但不会在查找中产生下一个结果。有了成千上万的条目，find_all吸收了大量的内

浏览 6提问于2016-12-29得票数 6

回答已采纳

1回答

在仅给定子字符串标题的情况下使用BeautifulSoup查找h3

、、

('tr')[1].find_all('td')] 但是，有时表格的显示略有不同(使用"16“而不是"15")，如下所示： ? 有没有办法只使用h3名称的子字符串执行find方法？如果我可以编写相同的代码行，只需要“第一次广告休息时的得分”子字符串，我相信它可以在所有情况下工作。谢谢!编辑：要进行测试，请下载this site的html版本，下面的代码片段应

浏览 21提问于2020-04-08得票数 0

回答已采纳

2回答

无法在python中获取bs4表内容

、、

这是密码，from bs4 import BeautifulSoupdef getdata(url): return r.text soup = BeautifulSoup(htmldata, 'html.parser') t

浏览 7提问于2022-06-05得票数 0

回答已采纳

1回答

使用NOTIN()的Kohana 3 ORM查询

、、、

有没有办法将与Kohana的对象关系映射一起使用？类似于： $products = ORM::factory('products')->notin('contry_id', $csl)->find_all();

浏览 0提问于2012-02-24得票数 0

回答已采纳

2回答

用Python 3进行抓取

、

Python3:我是刚开始刮擦和训练的，我正在尝试从这个页面中获得所有的功能： import requests response = requests.get(url)soup = BeautifulSoup

浏览 0提问于2019-01-06得票数 1

回答已采纳

2回答

使用BeautifulSoup从html中查找文本

、、、

</em><em class="status">passed</em>This is the text I want to get</span>for el in doc.find_all('li', attrs={'class': 'print text'}):但

浏览 1提问于2022-05-25得票数 0

回答已采纳

1回答

RuntimeError:超过了Python3.2 pickle.dump的最大递归深度

请原谅我的主题，我只是在练习我的蟒蛇技巧。=)from bs4 import BeautifulSoupfrom pickleusock: data = usock.read().decode("latin-1") soup = BeautifulSoup(text=True)[0]

浏览 1提问于2013-01-28得票数 3

2回答

在BeautifulSoup中使用过滤器时获取内部标记文本

我有：<div id="price">$199.00</div>我怎么才能得到$199.00的文本。

浏览 1提问于2013-11-27得票数 0

1回答

漂亮的Soup 4 HTML文档目录

、

我正在处理这一守则：import globimport re os.chdir: contents = f.read() soup = BeautifulSoup我的目标是找到以“ix:NonFraction.”开头的标签。因此，如

浏览 3提问于2016-05-10得票数 1

回答已采纳

4回答

尝试使用python和bs4从特定td中抓取所有“a”文本

、、、

我正在尝试抓取，以提取'a‘标记中包含的文本，特别是在带有类的表中，" table -main"，然后针对其中的每一行。第一个td包含两个团队名称的文本，带有一个td类“h- text -左侧”。不确定问题是否与我的循环有关，但我得到的错误消息似乎是我在循环的最后一行中错误地使用了bs4。import requests headers = {'User

浏览 1提问于2019-04-08得票数 1

回答已采纳

1回答

在注释标记中查找标记- Python

、

我正在尝试使用BeautifulSoup/Python从一个网站上抓取表格。由于这样或那样的原因，其中一个表似乎存在于注释标记中。我可以获得注释标记内的整个文本，但是我不知道如何对该文本运行find_all命令才能找到其中的表。我正在尝试获取Advanced St

浏览 12提问于2017-01-29得票数 0

回答已采纳

1回答

一个特定的href爬行在python中的美丽的汤

、、、、

在网站上，它有相同的href，但结果不同。例如，我的代码的结果是：67980001459640000126976500014565270001001379我只想带上数字from bs4 import BeautifulSoup from urllib.request import u

浏览 3提问于2020-05-25得票数 0

1回答

使用Python BS4仅附加/查找具有属性或包含特定字符串的文本的元素的最佳实践是什么？

、、

当前的discord.py (async.io)代码，用于打印任意一篇纽约时报文章的链接。def news(ctx): r = requests.get(url) else: await ctx.send('https:/

浏览 21提问于2020-03-20得票数 0

回答已采纳

2回答

如何使用requests向下滚动youtube视频

、、

我的代码的以下部分可以工作，但这里的问题是它只获取页面可见部分的视频名称。我想要做的是在页面中向下滚动。有没有办法使用python中的request模块向下滚动？？search_query={}'.format(word)) vide

浏览 0提问于2019-08-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup:有没有办法设置find_all()方法的起始点？

基础概念

相关优势

类型

应用场景

设置 find_all() 方法的起始点

1. 使用 find() 方法获取起始标签

2. 使用 CSS 选择器

遇到的问题及解决方法

参考链接

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

设置 `find_all()` 方法的起始点

1. 使用 `find()` 方法获取起始标签