如何在每两个兄弟的<hr>标签之间抓取内容？

在每两个兄弟的<hr>标签之间抓取内容，可以通过以下步骤实现：

解析HTML文档：使用HTML解析库（如BeautifulSoup、jsoup等）加载HTML文档。
定位兄弟节点：使用解析库提供的方法，定位到第一个<hr>标签的兄弟节点。
遍历兄弟节点：通过循环遍历兄弟节点，直到遇到下一个<hr>标签。
抓取内容：在遍历过程中，将每个兄弟节点的文本内容进行累加，即可获取到两个<hr>标签之间的内容。

以下是一个示例代码（使用Python和BeautifulSoup库）：

from bs4 import BeautifulSoup

# 假设html为待解析的HTML文档
html = """
<html>
<body>
    <h1>Title</h1>
    <p>Paragraph 1</p>
    <hr>
    <p>Paragraph 2</p>
    <hr>
    <p>Paragraph 3</p>
    <hr>
    <p>Paragraph 4</p>
</body>
</html>
"""

# 解析HTML文档
soup = BeautifulSoup(html, 'html.parser')

# 定位第一个<hr>标签的兄弟节点
sibling = soup.hr.next_sibling

# 遍历兄弟节点，直到遇到下一个<hr>标签
content = ''
while sibling and sibling.name != 'hr':
    content += str(sibling)
    sibling = sibling.next_sibling

# 输出抓取到的内容
print(content)

以上代码会输出以下结果：

<p>Paragraph 2</p>

这样就成功抓取到了第一个<hr>标签和第二个<hr>标签之间的内容。你可以根据实际需求进行修改和扩展。

如何在每两个兄弟的<hr>标签之间抓取内容？

、、、、

很难描述我的真实情况，所以我直接删除了网站：(事实上，困难在于标签的数量不确定，以及每两个hr标签之间<

浏览 9提问于2019-08-12得票数 0

1回答

相同父级中两个子级之间的正确xpath规范？

、、、

我希望正确地为页面主要内容的给定子集指定xpath，见：具体来说，我希望为第二个水平规则(hr)标记和第三个水平规则(hr)标记之间的内容使用xpath。我认为这分别应该是： '//div[@id="content"]/hr[2]' **AND

浏览 3提问于2013-07-12得票数 0

回答已采纳

2回答

PHP在<hr>标记之间解析文本

、、

我试图使用DOM和<hr>解析一些HTML来获取两个hr标记之间的文本，但是当我将hr传递到getElementsByTagName时没有得到任何输出。 $dom = new DOMDocument(); $hr = $dom->getElementsByTag

浏览 0提问于2017-03-30得票数 2

回答已采纳

1回答

使用<a>以特定属性为目标

、、

我试图抓取一个有这样一个部分的页面： <div> <span><strong，区别它们的唯一方法是通过<a>标记中的name属性。所以我想我想把目标对准，然后转到next_sibling，得到<hr>，然后

浏览 7提问于2015-11-25得票数 2

回答已采纳

1回答

美丽的汤-在文档的两个部分之间进行搜索

是否可以只对页面上两个字符串之间包含的内容运行Beautiful Soup？Yahoo Pipes中的HTML Import块的一个方便之处在于，它允许您标识开始字符串和结束字符串，因此可以将抓取限制在页面的特定区域。我在Beautiful soup中找到了一种从/from/中抓取特定字符串的方法： `start=sou

浏览 0提问于2010-11-04得票数 1

2回答

在递归CTE下控制兄弟顺序？

、、、

但我很难控制两个兄弟姐妹之间的叶选择顺序()，：(childID INT ,parentID INT ,NAME NVARCHAR(30),location int) 如果location是排序IFF的优先事项，那么他们就是兄弟姐妹。(没有排序的兄弟姐妹)，我似乎必须先 order by childID。但是-我的order by应该是什么样的，这样我才能看

浏览 4提问于2013-08-03得票数 4

回答已采纳

1回答

为什么iframe标签有结束标签？

、

为什么iframe标签有结束标签？既然这两个标签之间没有预期的内容(内容总是空的)，为什么iframe标记不唯一，比如嵌入标记、链接标记、元标记(img、br、hr等)？计算机语言不应该是必需的吗？我还没有在w3c网站上找到答案：为这个愚蠢的问题道歉。感谢任何回答的人。尤里

浏览 3提问于2016-09-22得票数 1

回答已采纳

2回答

单元格间距问题

、

我正在使用一个表来显示从两个数据库表中提取的数据。我尝试将信息放在由hr标签分隔的两行中，以便在它们之间创建一条线。但是，最后一个单元格(在本例中)没有要输入到其底部的任何内容。它是一个与字母高度相同的字符，我可以将它放入其中，使hr标签与其他字符对齐，而用户仍然看不到它。

浏览 2提问于2011-02-09得票数 0

回答已采纳

3回答

多个相同字符之间的SED RegEx

、、

我如何在所有这些标签和符号之间抓取下面的标题文本？我需要抓取的东西：示例源代码：我试过这样做，但它甚至在pre tag之前抓取了整个顶部，但bellow part似乎工作

浏览 0提问于2012-10-11得票数 2

回答已采纳

3回答

什么时候使用hr元素在语义上是正确的？

、、

说谁能举几个例子来说明什么时候使用它(除了所示的例子之外)，以及什么时候使用样式？

浏览 65提问于2012-03-28得票数 25

回答已采纳

1回答

在CRM项目中的联系人之间建立家庭关系

、、、

我想在联系人之间建立家庭关系，发现联系人之间的隐藏关系，并在sql server中使用递归显示它。例如:我有一个包含以下内容的表：1 2 Parent-child3 4 Brother-brother 我的存储过程应该发现特定用户id的所有关系。如果用user_id

浏览 1提问于2012-05-30得票数 1

5回答

获取注释之间的数据html dom解析器

、、、

我试着在两个评论之间抓取纯文本。我在这里看过其他几篇使用next sibling或get child的帖子，但这些似乎都依赖于找到另一个HTML标签。这些数据只是纯文本。260553Z 00000KT 10SM SCT070 22/08 A2980 RMK AO2 SLP089 FU SCT070 LAST T02170083 10261 20211 50006<br /><hr

浏览 0提问于2017-09-26得票数 0

1回答

Facebook点赞按钮默认文本

、

我在我的网站上有一个FB喜欢按钮，但当它被点击时，在您的FB馈送上产生的“此链接摘要”文本是错误的。"Learn about HAIKU.LI from this free business profile providedby Network Solutions" 该文

浏览 0提问于2012-04-23得票数 0

回答已采纳

1回答

如何在表示相同标签的每个标记上设置标题

、、、、

我在下面的图中有一个传奇的第一个版本：使用以下代码：如您所见，我为标记和列的每一列都放置了一个标题(k_max = 0.3和k_max = 1.0)。现在，为了避免这种冗余，我正在尝试合并所有重复的标签，同时通过执行以下操作来保留每个标记的标题：这样，我得到了以下数字：然后，会出现两个问题： 1)与上图相比，两个标记之间的间距太小:如何在标记之间</

浏览 36提问于2020-07-22得票数 9

回答已采纳

2回答

在没有关联的反应路径或组件之间进行数据通信

、

如何在没有父-子关系的两个组件之间，没有具有公共父级关系的兄弟级组件之间进行数据通信。两者都映射到App.tsx中的两个路由路径，这将是我的起始组件。如何从home组件中存储某些内容并在About组件中获取相同的数据？注意: 1.寻找任何内置的反应机制来实现这一点，由于项目限制，不能使用Redux。

浏览 4提问于2019-10-15得票数 2

2回答

将标签列插入数据框中的列内容

、

我有一个包含不同列的数据框，我需要将每列的标签插入到列的内容中。','food'] white winter meatred fall soup 我需要为每一列执行类似于此df.col1.add(' col1')的操作，标签在内容之前。我的结

浏览 30提问于2019-10-10得票数 2

回答已采纳

2回答

使用Simple_HTML_Dom获取特定文本后面的文本

、、

Simple_HTML_Dom非常适合抓取特定标签中的内容，但在抓取文本时，我不确定如何在基本的基础上做更多的事情。这是我所搜集的代码的一个示例：Some code stuff.</span> 如您所见，FirstWord和88没有包含在任何类型的标记中。这使得它们很难被抓取。不过，问题在于: FirstWord始

浏览 1提问于2013-02-27得票数 1

回答已采纳

1回答

使用regex从特定HTML标记获取内容

、

我试图找到一些正则表达式，它与下面的2个html标记相匹配，并在两个单独的组中从它们中检索X和Y。X和Y可以是0-99999之间的任意整数.<td align="right">X</td>这是仅有的两个标签在页面上与td align=“正确”，我会感谢任何帮助。编辑要下载我使用的webcl

浏览 1提问于2014-06-27得票数 1

回答已采纳

4回答

如何在C#中的其他两个字符串之间返回字符串？

、、、

对于已经创建的页面源，我有一个字符串。我需要从字符串中抓取几行文字。我需要的字符串介于另外两个字符串之间。这两个字符串是“关键字”：和，"“ 如何在引号(如“关键字”：)之后搜索具有冒号的字符串？

浏览 8提问于2013-10-16得票数 0

回答已采纳

3回答

将html元素内联在响应布局方法中

、

我想要放置图像，箭头，标题和输入文本框的特殊方式，就像在图像。我想显示这样的内容：css：

浏览 0提问于2014-06-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在每两个兄弟的<hr>标签之间抓取内容？

相关·内容

如何在每两个兄弟的<hr>标签之间抓取内容？

相同父级中两个子级之间的正确xpath规范？

PHP在<hr>标记之间解析文本

使用<a>以特定属性为目标

美丽的汤-在文档的两个部分之间进行搜索

在递归CTE下控制兄弟顺序？

为什么iframe标签有结束标签？

单元格间距问题

多个相同字符之间的SED RegEx

什么时候使用hr元素在语义上是正确的？

在CRM项目中的联系人之间建立家庭关系

获取注释之间的数据html dom解析器

Facebook点赞按钮默认文本

如何在表示相同标签的每个标记上设置标题

在没有关联的反应路径或组件之间进行数据通信

将标签列插入数据框中的列内容

使用Simple_HTML_Dom获取特定文本后面的文本

使用regex从特定HTML标记获取内容

如何在C#中的其他两个字符串之间返回字符串？

将html元素内联在响应布局方法中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐