Python BeautifulSoup -忽略子标记和ID_如何忽略beautifulsoup4 python上的标记_Python BeautifulSoup，遍历标记和属性 - 腾讯云开发者社区

、

我想要找到所有的父标签，即所有只包含数字的ID，以及其中包含的文本。但是，现在我得到了所有a标记的扁平结构，包括父标记和子标记。<A ID=101><a id=”A2”>Today is a very nice day.<a id=”A3”>Today is a very very nice day.

浏览 13提问于2019-10-08得票数 1

回答已采纳

1回答

用BeautifulSoup删除xml解析中包含特定子标记的标记

、、

我试图在Python中使用BeautifulSoup解析XML文件。XML文件如下所示：<b><c>abcd</c></x></x> <x id ='567'><c>d

浏览 1提问于2018-05-01得票数 0

回答已采纳

1回答

BeautifulSoup导航忽略指定路径

、

看起来，我的BeautifulSoup解析器似乎忽略了我请求的元素的路径，并返回在路径中找到的第一个标记，该标记在路径中带有最后一个元素的名称，而不考虑到那个位置的路径。>Python代码： testXML = "<root><firstcategory><subcategory><id>123<&#

浏览 0提问于2016-11-02得票数 1

回答已采纳

1回答

Python `bs4.BeautifulSoup.get_text()` -仅从即时级别获取文本

、

假设我有一个超文本标记语言片段，并且我只想从直接级别执行get_text：s = "<div><p><strong>College Type:</strong> \r\nPrivate Un-aided\r\n</p></div>"print soup.find('

浏览 2提问于2016-10-20得票数 2

2回答

如何在获得美丽汤元素的.string时忽略标记？

、、、

我正在处理具有子标记的HTML元素，我希望“忽略”或删除这些标记，以便文本仍然存在。刚才，如果我尝试使用标记来.string任何元素，我所得到的就是None。import bs4 <div id="main"> </d

浏览 2提问于2013-08-16得票数 3

回答已采纳

3回答

在HTML文件中查找所有呈现的图像

、、、

我需要一种方法，在片段中只找到呈现的IMG标记。所以，我不能仅仅用HTML片段来查找所有的IMG标记，因为我还会得到在HTML中显示为文本的IMG标记(而不是呈现的)。我在AppEngine上使用Python。谢谢，伊凡

浏览 2提问于2009-04-07得票数 0

回答已采纳

1回答

标签之间没有空格的BeautifulSoup .children或.content

、

我希望标签的所有子标记之间没有空格。但是BeautifulSoups .contents和.children也返回标记之间的空格。from bs4 import BeautifulSoup<div id="list"> <a href="2.html">2</a><a hr

浏览 2提问于2019-05-07得票数 3

1回答

抓取维基百科文章中的所有标题和纯文本

、、

在Python中，我将如何获取维基百科文章中的所有标题和平面文本，比如：。(html, "html.parser") for elements获取<p>标记之间的所有内容。我的目标是抓取本文的所有标题和纯文本内容。我该怎么做呢？在上面发布的示例中，我想要的输出将包含：此页

浏览 4提问于2016-11-02得票数 1

回答已采纳

1回答

在python-markdown中禁用反引号内的html转义

、

我观察到，python-markdown总是在反引号内转义HTML实体，即使使用safe=False： In [2]: markdown.markdown

浏览 4提问于2013-10-28得票数 2

1回答

如何根据<p> <div>或<br>标记的存在来拆分html页面

、、、

因此，第一个<p>标记将包含从<html>到相关<p>标记的所有数据/标记。我看过类似于lxml项目中的etree的东西，但它看起来并不重要。我已经想出了一种方法，我可以保存文件偏移量，然后继续剪切和切片输入文件，以实现我的目标，但它似乎充其量是黑客。谢谢。

浏览 1提问于2013-07-30得票数 1

1回答

使用BeautifulSoup进行网络抓取返回NoneType

、

我试图用BeautifulSoup刮一个网站，并编写了以下代码：from bs4 import BeautifulSoup soup = BeautifulSoup(page.text, 'html.parser') try:content = soup.find('div'

浏览 1提问于2019-01-18得票数 3

回答已采纳

1回答

用BeautifulSoup实现HTML页面中的子串计数

、、

我需要找到并计算所有的"python“和"c++”字作为一个子字符串在BeautifulSoup模块的超文本标记语言代码。在维基百科中，这些词相应地出现了1到9次。为什么我的代码写0和0？from urllib.request import urlopen, urlretrieve resp = urlopen("https://stepik.org&#x

浏览 18提问于2020-07-15得票数 0

回答已采纳

3回答

使用BeautifulSoup4查找包含文本的所有终端节点。

、、

我是Python和BeautifulSoup4的新手以下是我的尝试：

浏览 1提问于2019-01-19得票数 5

回答已采纳

1回答

如何使用python* HTMLParser从HTML页面中抓取特定值*

、

我必须通过HTML层次结构找到值(在本例中是"dfgd454“)：<

浏览 1提问于2015-04-09得票数 0

回答已采纳

2回答

在Python文件夹中的所有HTML文件中插入HTML标记

、、

我对python很陌生，我尝试了一个程序来完成以下工作：如果没有，那么添加< Google标记Manager我无法扫描每个文件夹中的所有子文件夹。如果< Google标记Manager>立即出现在body

浏览 4提问于2016-09-11得票数 1

1回答

BeautifulSoup子标记和删除重复标记

、、

我试图通过使用Python2通过BeautifulSoup解析一些html。 for i in raw_html: soup = BeautifulSoup(i, 'htm

浏览 5提问于2018-01-06得票数 0

回答已采纳

1回答

如何获得与浏览器视图匹配的带换行符的文本，而不是html源代码(使用python和漂亮汤)

、、

当我在Python语言中使用BeautifulSoup模块中的get_text()函数时，它返回的文本带有与HTML源代码匹配的换行符。但是，我希望换行符模仿您在浏览器中看到的效果(例如，忽略HTML源文件中的换行符，<br>标记使用一个换行符，<p>标记之间使用两个换行符)。from bs4 import BeautifulSoup sample html<br>

浏览 17提问于2019-10-16得票数 1

2回答

在页面上发现所有“Php”的出现忽略case BeautifulSoup

、、

我希望在一个页面(忽略Php )上找到BeautifulSoup在Python3中发生的所有事件from BeautifulSoup import BeautifulSoup school_urls = ['somesite1.com','somesite2posting_keywords = ['PHP&#x

浏览 4提问于2017-01-25得票数 0

2回答

我试图用BeautifulSoup解析一些HTML，我想将所有的文本(递归地)都放在一个标记中，但是我想忽略small标记中出现的所有文本。在实际的HTML中，涉及到许多其他标记，因此应该排除small，而不是包含a。标签的text属性与我想要的接近，但是它将包括Fun fact.，我可以连接除small标记之外的所有子标记的文本，但这会忽略definition. --我找不到像get_text_until这样的方法( small<

浏览 4提问于2016-11-06得票数 0

回答已采纳

1回答

使用Python模块BeautifulSoup刮取XML，需要树中的特定标记

、、、、

因此，我已经在这个python脚本上工作了一段时间了，我正在尝试刮掉腿标签下的持续时间和距离标记。问题是，在步骤标签中，也有一个名为持续时间和距离的子标签，而步骤标签是腿标签的子标签。当我刮擦数据时，它也会返回那些距离和持续时间标记。mi</text> </leg> </route

浏览 3提问于2014-03-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云