使用BeautifulSoup查找类中的H标记

文章/答案/技术大牛

发布

2回答

python、beautifulsoup

我在计算一篇文章中的所有H标签时遇到了一点问题，我需要将搜索保持在主文章类中-代码的一部分。它看起来像这样。>But I dont want to find this H3-tag</h3> 运行这段代码将在页面上显示所有到H4的H1标记，并计算页眉和页脚，它们都在文章类之外。for heading in soup.find_all([

浏览 32提问于2021-09-01得票数 0

回答已采纳

1回答

如何用HTMLParser读取内部标签？

python、html、python-3.x、html-parsing

在HTML文件中的某个地方，我有一个内部标记如下的div： <h3><a href="#">TEXT</a></h3>如何使用Python中的HTMLParser类查找a元素中<

浏览 0提问于2013-04-12得票数 0

回答已采纳

10回答

我们可以在BeautifulSoup中使用XPath吗？

python、web-scraping、xpath、beautifulsoup、urllib

我正在使用BeautifulSoup抓取一个网址，我使用了以下代码来查找其类为'empformbody'的td标记import urllib2 url = "http://www.example.com/servlet/av/ResultTemp

浏览 2提问于2012-07-13得票数 135

回答已采纳

3回答

如何识别哪些HTML标记或类指定何时从网页抓取？

python、html、web-scraping、beautifulsoup

我想在一个网站上抓取新闻链接(在下面的截图中突出显示)：当我inspect页面时，我看到我想要的链接包含在标签h5下的类col-sm-5中。我想刮掉div类col-sm-5中的所有4个链接(使用标记col-sm-5)。(page.text, "html.parser") li_box = soup.find('h5', attrs={'c

浏览 0提问于2018-05-23得票数 1

回答已采纳

3回答

使用BeautifulSoup在DIV类内的H标记中查找部分文本

python、html、python-3.x、web-scraping、beautifulsoup

我在DIV类内容中有一个HTML，它看起来像 <h2> Brookstone AS20194 Multi-functional Massage Chair</h2> 我的Python代码是 soup.find('div',attrs={'class':'content'}).h2.text 然后它会返回 Brookstone

浏览 31提问于2020-06-09得票数 1

回答已采纳

1回答

无法识别链接类

python-2.7、web-scraping、beautifulsoup

我对编程和Python非常陌生，并且正在尝试编写这个简单的刮板，从这个页面中提取治疗师的所有配置文件URLs。import requests p = '&page='<div class="member-summary"> <h2 class=""&g

浏览 0提问于2015-04-28得票数 1

回答已采纳

4回答

当存在相同的标记时，如何使用BeautifulSoup提取文本，这是没有用的

python、web-scraping、beautifulsoup

我正在做一些网络抓取，我需要在<p>段落之间的文本。_SX40_SY40_SS40_.jpg" height=${avatar.image.size} width=${avatar.image.size}></a><img width="102" height="12" alt="3/10" src=&q

浏览 3提问于2016-04-20得票数 1

回答已采纳

1回答

为什么漂亮汤找不到我要找的html元素？

python、beautifulsoup

我正试图从coinbase中获取加密货币价格的变化，方法是用漂亮的汤进行解析。在coinbase网站()上，我可以找到价格变化的html元素。<h4 class="TextElement__Spacer-hxkcw5-0 caIgfs Header__StyledHeader-sc-1xiyexz-0 dLILyj">+0.33%</h4>然后，在python中，我通过查看h4标记

浏览 1提问于2020-06-14得票数 2

回答已采纳

2回答

使用python正则表达式的HTML解析

python、html、regex

我使用python正则表达式来解析html文件，现在我需要从html标记中提取一个数字，这个数字可以是整数，也可以是浮点数。以下是两个例子：<span class='addr-bbs'>2 baths</span><span class='addr-bbs'>3.5 baths</span> 我的原始代码是= re.findall('<span class=\"addr_bbs\

浏览 2提问于2016-07-11得票数 0

回答已采纳

2回答

在HTML中查找文本搜索元素的标记

python、html、web-scraping、beautifulsoup

我试图刮多个网页来比较书的价格。因为每个站点都有不同的布局(和类名)，所以我希望使用regex和周围的元素找到这本书的标题。下面给出了一个代码示例。from bs4 import BeautifulSoup<div class='product-box'> <h2 class='title'我知道，当

浏览 2提问于2019-11-11得票数 0

回答已采纳

1回答

在一组表格下选择一组特定的单元格，使用python和漂亮汤

python、html、parsing、beautifulsoup

表的共同点是它们的类是相同的，考虑到"table_class."We需要同一列下的内容第三列，标题是每个table.Contents的标题意思，第三列中的href链接来自所有行。您应该将每个href链接逐个打印在单独的行中。使用属性进行筛选的无效，因为某些标记具有不同的属性。单元格的位置是唯一可用的<

浏览 58提问于2015-04-09得票数 1

回答已采纳

1回答

如何通过Python BeautifulSoup中的特定文本找到标记？

python、html、web-scraping、beautifulsoup

您知道如何在pythons BeautifulSoup中搜索特定的文本吗?查找标记？？更好的标记完整路径，包含一些string。例如，BS4的常用用法是：from bs4 import BeautifulSoup website = requests.get(ur

浏览 4提问于2022-09-04得票数 0

回答已采纳

2回答

在BeautifulSoup中将一种标记替换为另一种标记

python、html、parsing、python-3.x、beautifulsoup

我有一个HTML文件的集合。我希望逐个迭代它们，编辑特定类的标记。我希望编辑的代码如下所示，使用以下类名： <a id='123' class='thisIsMyOtherClass' href='123'>Put me Elsewhere</a> 这可以在同一个文档

浏览 5提问于2014-12-01得票数 6

回答已采纳

1回答

基于h3日期和相关列表项修改HTML

python、html、beautifulsoup

我希望有一个脚本来完成以下工作： earlierRemoves 读取文件在h3标记中查找昨天的日期，或查找与无关的所有日期。任何洞察力都会受到极大的赞赏--我已经和BeautifulSoup混在一起了，但我不确定我是否有足够的经验或知识把它整合在一起。下面是我的尝试，它成功地删除了昨天h3标记之间的日期，但我不知道如何处理与前面的h</e

浏览 6提问于2022-05-21得票数 -1

回答已采纳

1回答

BeautifulSoup获取与类最近的标记，而不是嵌套在未知同级中的同级标记

python、beautifulsoup

<h3> <span class='headline'>Headline #1</span><table class='striped'></我正在枚举table标签，并且想要检索span标签的文本值，其中包含一个离我的表最近的'headline‘类。所

浏览 17提问于2019-01-25得票数 0

回答已采纳

2回答

使用beautifulSoup和print访问属性

python、beautifulsoup

我想刮一个站点来查找h2标签的所有标题属性使用这段代码，我将访问整个h2标记</

浏览 2提问于2018-03-30得票数 0

回答已采纳

2回答

BeautifulSoup:搜索.text属性

python、web-scraping、beautifulsoup

我有以下情况html = '''<span class='generic'><span>Hey</span><span>Joe</span></span>'''tag = soup.find('span',

浏览 0提问于2018-12-31得票数 1

回答已采纳

1回答

查找h3元素中的所有锚元素

python-3.x、beautifulsoup

我有这段代码来查找h3标记中的所有标记元素(有h3父元素)，但不幸的是，它返回了一个空列表。r = requests.get('some_url_here')a=soup.find_all('h3>a')

浏览 2提问于2020-12-26得票数 0

回答已采纳

2回答

使用BeautifulSoup拉取标签值

python、parsing、tags、beautifulsoup

有人能告诉我如何使用BeautifulSoup拉取标签的值吗？我阅读了文档，但很难浏览它。例如，如果我有：我怎么才能使用BeautifulSoup/Python拉出"Funstuff编辑:我正在使用版本3.2.1

浏览 1提问于2012-07-24得票数 6

回答已采纳

2回答

Python通过Visual问题应用刮刀

python、web-scraping、beautifulsoup

我只想打印第一个可用的网球选手作为一个单独的项目，并排除所有在它之后的项目，那么我需要在代码中更改什么来做到这一点呢？请注意，我通过Visual 2022完成了此操作，并将该程序应用于使用Microsoft浏览器。import requests response = requests.get("https://www.betexplorer.com/tennisatp-singles&#

浏览 3提问于2022-10-30得票数 1

回答已采纳

点击加载更多