BeautifulSoup:抓取每个header后面所有<ul>的所有内容

BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。它提供了一种简单且灵活的方式来浏览、搜索和修改HTML/XML文档的解析树。

在抓取每个header后面的所有<ul>内容时，我们可以按照以下步骤使用BeautifulSoup库来实现：

导入BeautifulSoup库：

from bs4 import BeautifulSoup

获取HTML文档：

html_doc = """
<html>
  <body>
    <h1>Header1</h1>
    <ul>
      <li>Item 1</li>
      <li>Item 2</li>
    </ul>
    <h2>Header2</h2>
    <ul>
      <li>Item 3</li>
      <li>Item 4</li>
    </ul>
  </body>
</html>
"""

创建BeautifulSoup对象：

soup = BeautifulSoup(html_doc, 'html.parser')

使用find_all()方法查找所有的header标签（h1、h2等）：

headers = soup.find_all(['h1', 'h2'])

遍历每个header标签，然后找到紧跟其后的所有<ul>标签内容：

for header in headers:
    ul_tags = header.find_next_siblings('ul')
    for ul in ul_tags:
        items = ul.find_all('li')
        for item in items:
            print(item.text)

在上述代码中，我们首先使用find_all()方法查找所有的header标签，然后使用find_next_siblings()方法找到紧跟其后的所有<ul>标签内容。接着，我们使用find_all()方法找到每个<ul>标签下的所有<li>标签内容，并打印出来。

对于BeautifulSoup库，它的优势在于它可以处理复杂的HTML或XML文档，并提供了简单而强大的API来解析和操作这些文档。它的应用场景包括网络爬虫、数据抓取、数据清洗和数据分析等。

腾讯云提供了Serverless Framework云函数，该产品支持Python语言，并且可以轻松部署和运行BeautifulSoup库相关的代码。您可以通过以下链接了解更多信息：

Serverless Framework云函数

希望以上内容能够帮助到您！

BeautifulSoup:抓取每个header后面所有<ul>的所有内容

、

我有一个很长很长的头部列表，后面跟着列表： <h2>Header1</h2><li>A</li><li>C</li><h2>Header2</h2><ul> <li>D</li&g

浏览 28提问于2019-10-03得票数 2

回答已采纳

1回答

在我们有div标签的地方提取内容，后面跟着hearder标签。

、、

例如：<div>some text here <li>list</li> <li>list</li></div> 我尝试了以下链接中提供的解

浏览 0提问于2019-07-22得票数 0

1回答

使用CSS选择器(Python、BS4)销毁数据

、、、

我是第一次使用CSS选择器抓取数据。import requests url = "https://weworkremotely.com/remote-jobs/title, "company": company, "location": location, "link":f&

浏览 8提问于2022-02-01得票数 0

回答已采纳

1回答

Python文本抓取: AttributeError：'NavigableString‘对象没有’BS4‘属性

、、

我想从下面的页面中用class="academicsList"抓取ul中每个li的文本： import requests from fake_useragent import UserAgentcity=51I&ins

浏览 4提问于2018-09-04得票数 1

回答已采纳

2回答

试图在标题和内容中进行擦拭和分隔。问题是，两者都有相同的类和标签，如何隔离？

、、

我试图在网络上抓取更多的，将其分为两个部分:标题和内容，问题是两者都有相同的类和标签。除了使用regex和硬编码之外，如何区分和提取excel中的2列？在图片()或提供的网站链接中，bold(除了字母表字母(A)和后面的‘回到顶部’)表示标题和解释(在粗体下面非粗体)表示内容(内容甚至由站点后面的'li‘和'ul’块组成，应该放在相应的标题下)。#Code to

浏览 0提问于2019-04-22得票数 0

回答已采纳

1回答

当遇到没有伴随打开标记的结束标记时，BeautifulSoup会过早地切断div。

、、

我试图刮掉一个经常在div中间使用自定义结束标记的页面，而不是附带的开始标记，这会导致BeautifulSoup将其视为div的末尾。 <h4>Promo Header</h4> <li>items here</li> </u

浏览 3提问于2020-11-10得票数 0

回答已采纳

1回答

下面的代码将所有字段显示在screen.Is上，这样我就可以像在数据库或spreadsheet.In中显示的那样“与”字段“并排”，源代码中的字段跟踪、日期、日期、时间、等级、距离和奖品都在resultsBlockHeader我正在试图让它们显示为这样的跟踪、日期、日期、等级、距离、奖品、鳍、灰狗、陷阱、SP、timeSec、timeDistance --所有这些都在一个line.Any帮助中。from urllib import urlopen from bs4 import Beautifu

浏览 2提问于2016-02-05得票数 1

回答已采纳

1回答

使用BeautifulSoup从CSV中列出的多个URL中刮取信息，然后将这些结果导出到新的CSV文件中。

、、、

我有一个45k+行CSV文件，每个文件包含相同域的不同路径--它们在结构上是相同的--而且每个单独的路径都是可点击的。我成功地使用BeautifulSoup来抓取每个标题和内容，并通过print函数验证了刮板。但是，当我试图将收集到的信息导出到一个新的CSV文件时，我只得到最后一个URL的街道名称和描述，而不是我所期望的所有这些

浏览 3提问于2020-02-20得票数 0

回答已采纳

3回答

无法从网页上抓取所有链接及其子链接

、、、

我试图递归地获取位于此左侧区域中Automotive下的所有链接。我目前的实现只能从登录页面获取链接。import requests link = 'https://www.amazon.de/

浏览 12提问于2020-10-10得票数 0

1回答

我需要一个脚本，打开一个excel链接，然后抓取信息，并保存它

我是python的新手，我对下面的脚本有一些疑问。基本上，我有一个excel文件，里面有很多链接，我需要从中提取一些信息。但问题是我的代码只挑选最后一段数据，而不是所有数据。我需要一个脚本，打开每个excel文件，然后抓取信息，并保存为任何格式，如CSV或excel。请找到我正在使用的当前脚本。import csvfrom selenium import webdriver driver = webdriver.Chrome

浏览 16提问于2020-10-22得票数 0

1回答

检查树是否已展开或打开(Selenium / Python)

、、、、

例如，我们有以下几行代码，这是父级(使用elements面板的DOM视图)。这是打开的树：li_attr: {id: "j1_1"} original

浏览 3提问于2018-11-21得票数 1

1回答

BeautifulSoup -查找连续的(无层次的) html元素

、、

所以我正在解析一个设计不是很好的网站。元素并不是真正的分层结构。有一个巨大的div，它的结构如下:一堆我不关心的东西，然后下面的结构重复了任意次：p(ul其中括号之间的所有内容都可以重复任意次。我想提取这个模式的每个实例，但由于没有包含所有实例的元素，我只能选择它们，所以遇到了麻烦。似乎我需要某种形式

浏览 0提问于2018-05-08得票数 0

2回答

使用Python中的BeautifulSoup从html中提取数据

、、

我试图使用beautifulSoup从一个网站中提取数据.我想从这个HTML片段中提取数据<ul class="result-info info-bro-6 cc" style="display:</ul>我想提取的数据是“* /****”。我希望我的代码返回这个和这个，但是我目前拥有的代码正在返回li标记中的所有数据。我怎么能只提取我想要的数据呢？这是我目前的</

浏览 0提问于2019-03-13得票数 0

回答已采纳

1回答

循环页面并对Python中的内容进行爬网

、、、、

我想从抓取内容我怎么能循环所有的页面并抓取红色圆圈中的所有元素呢？谢谢。代码：import requestsfrom urllib.parse import urlparse r = requests.get(url) soup = BeautifulSoup(r.content, "html.

浏览 9提问于2021-03-11得票数 0

回答已采纳

1回答

BeautifulSoup的find_all( )方法:查找确切的事件？

、、、

我正在使用Python和BeautifulSoup进行web抓取。例如，我有以下html代码要抓取： <li class="product-item">Product A</li>使用BeautifulSoup，我希望只查找属性为“class=-item”(仅限产品A)的产品，而不是“class=

浏览 2提问于2014-03-30得票数 0

1回答

我想用漂亮的汤从python的链接中获取内容。

、、、

我正试图从中删除这些数据我使用python、请求和bs4from bs4 import BeautifulSoupimport urllib.request url = 'https://www

浏览 2提问于2020-07-07得票数 1

回答已采纳

2回答

BeautifulSoup不抓取动态内容

、、、

我的问题是，我想从这个页面获取相关链接：import urllib2 from bs4 import Be

浏览 2提问于2013-04-07得票数 1

2回答

无法使用<header> ()找到jQuery.siblings标记

、

</div> <div> <li> <p>...</a> </form> </ul

浏览 6提问于2016-02-03得票数 2

回答已采纳

2回答

Python 3.5.2 web-scraping - list索引超出范围

、、

我是新的网络抓取，并试图抓取所有内容的餐厅的详细信息形式，以便我可以继续我的进一步抓取。import requestsimport urllib r=requests.get(url) soup=Beauti

浏览 5提问于2016-09-21得票数 0

1回答

使用BeautifulSoup在Python上抓取列表

、、

我是Python的新手，我试着学习如何使用BeautifulSoup来刮网页。首先，我只是使用yahoo.com的HTML代码：我想刮掉从第577行开始，以633结尾的链接列表，然后获取它们的URL和标题，并将其放在Python中的表中。) YahooList = yahoo.find('ul

浏览 2提问于2016-02-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup:抓取每个header后面所有<ul>的所有内容

相关·内容

BeautifulSoup:抓取每个header后面所有<ul>的所有内容

在我们有div标签的地方提取内容，后面跟着hearder标签。

使用CSS选择器(Python、BS4)销毁数据

Python文本抓取: AttributeError：'NavigableString‘对象没有’BS4‘属性

试图在标题和内容中进行擦拭和分隔。问题是，两者都有相同的类和标签，如何隔离？

当遇到没有伴随打开标记的结束标记时，BeautifulSoup会过早地切断div。

显示网页刮伤的内容

使用BeautifulSoup从CSV中列出的多个URL中刮取信息，然后将这些结果导出到新的CSV文件中。

无法从网页上抓取所有链接及其子链接

我需要一个脚本，打开一个excel链接，然后抓取信息，并保存它

检查树是否已展开或打开(Selenium / Python)

BeautifulSoup -查找连续的(无层次的) html元素

使用Python中的BeautifulSoup从html中提取数据

循环页面并对Python中的内容进行爬网

BeautifulSoup的find_all( )方法:查找确切的事件？

我想用漂亮的汤从python的链接中获取内容。

BeautifulSoup不抓取动态内容

无法使用<header> ()找到jQuery.siblings标记

Python 3.5.2 web-scraping - list索引超出范围

使用BeautifulSoup在Python上抓取列表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐