如何使用Beautifulsoup从HTML标签中提取数据

文章/答案/技术大牛

发布

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

、

我有一个这样的HTML结构 <a href="abc.com"> </a> <ahref="xyz.com">comments</a></p>下

浏览 1提问于2016-04-28得票数 1

2回答

谁能告诉我如何使用Beautifulsoup从中提取项目摘要？这是我的HTML文件 <p><strong>Educational Qualification:</strong></p> <p>❖ B.Tech Computer Science如何从中提取项目摘要？下面是我的代码： with open('E:/cvparser&#x

浏览 16提问于2019-08-21得票数 0

2回答

Python BS4美汤HTML.Parser在网站上不起作用

、

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我<

浏览 26提问于2019-07-13得票数 2

回答已采纳

1回答

使用Beautifulsoup从HTML标签中提取数据

我正在尝试从下面的html中提取经验字段。<html><head></head><body> <span)学习了数据科学和机器学习的基本概念，包括python和统计，花了足够的时间理解每个算法背后的概念，并进行了示例和案例研究。<em

浏览 12提问于2019-08-23得票数 0

1回答

Python web抓取: google搜索结果中的网站

、、、、

我想从一个谷歌搜索页面从多个网站(例如100+)提取信息。我只想提取关键信息，例如那些带有<h1>、<h2>或<b>或<li> HTML标签的信息等，但我不想提取整个段落的<p>。我知道如何从google搜索中收集网站URL列表；我还知道如何在查看页面的HTML后对单个网站进行网络抓取。我使用Request和Bea

浏览 18提问于2021-03-31得票数 1

2回答

Python中脚本标记的Web抓取

、、、、

我已经设法使用BeautifulSoup.Then获取脚本标记，我将其转换为json对象。我想要的信息在data['x']中，但它被卡在b标记之间。infoinwant</br>columniwant: 123','<b>infoiwant</b><br>NA<br>columniwant: 123'</br>columniwant: 123 我该如何从这些b元素中

浏览 5提问于2020-09-11得票数 0

1回答

BeautifulSoup :从html标记中提取/解析数据

、、、

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“ 我要的是玩家数据--这些数据似乎是XML格式的。然而，这些数据出现在"match“标记中，而不是作为开始/结束标记中的内容出现。print(soup.m

浏览 5提问于2021-04-08得票数 0

回答已采纳

3回答

如何使用python解析ld+json

、、、

我一直在尝试一些网络抓取，我偶然发现了这个标签中的一些有趣的数据：我已经能够用美丽的汤分离出那个标签soup = BeautifulSoup(html, "lxml") p = soup.find('script', {'type':'appl

浏览 2提问于2017-04-27得票数 9

1回答

使用python中的美观汤提取网页中数据丰富的节点

、、、、

使用python中的美丽汤提取网页中数据丰富的节点，有没有方法计算页面中标签的频率，from bs4 import BeautifulSoup r = requests.get(url) 现在我想数一数所获得的html中

浏览 0提问于2015-04-21得票数 2

回答已采纳

1回答

如何在使用BS4从多个标签中提取数据后划分信息

、

从文档中提取列表时出现问题。我的sources文件并不是真正的html，但它有一个标签来提取所需的数据。from bs4 import BeautifulSouppage = open(url) soup = BeautifulSoup(page.rea

浏览 1提问于2016-06-21得票数 0

1回答

如何从URL中提取特定内容？

、

我被要求使用BeautifulSoup库分析页面(https://www.edb.gov.hk/en/about-edb/press/press-releases/index.html)并提取表或列表；然后将数据存储在python列表或dict或pandas数据帧中。我使用带有标签"a“和"a href”的"for loop“成功地<e

浏览 22提问于2021-10-17得票数 0

1回答

使用BeautifulSoup、python从span中提取数据

、、、

我一直试图使用 BeautifulSoup从span 中提取数据，但不知怎么的，它正在抛出一个错误。-- -->%</span></td>page_content= BeautifulSoup(http.html, 'html.parser') content= page_content.td.contentsdata

浏览 3提问于2022-02-19得票数 -1

回答已采纳

2回答

在Python中使用BeautifulSoup* 4从div标记中提取文本*

、、、

我正在尝试使用BeautifulSoup4和python从div标签中提取文本。下面的html代码存储在一个文件(example.html)中<table class="NZX1058422900" cols="20" style="border-collapselike below:5 - Level 1, Level 2, or

浏览 1提问于2017-08-14得票数 2

回答已采纳

3回答

如何提取带有标签的标签内的文本？

、

我想使用beautifulsoup解析html页面。我希望在不删除html标签的情况下提取标签中的文本。Router link not working</b>样本输出：我试过这样做： from bs4 import Beautifulsoup

浏览 10提问于2019-10-11得票数 2

回答已采纳

4回答

排除带有漂亮汤的标签

、

我正在尝试获取一个包含漂亮汤的html表格中的内容。我正在使用data.get_text()，但我不知道如何过滤掉0.45美元，有什么办法吗？

浏览 0提问于2018-02-20得票数 0

4回答

Python:如何提取表中列的内容

、、

我有这个HTML结构： <table> <tr> </tr>The content I want</div> </tr> </

浏览 1提问于2012-02-20得票数 3

回答已采纳

1回答

用BeautifulSoup* - HTML不同格式从CSS类链接中提取标题*

、

我刚开始使用BeautifulSoup进行网络抓取，并遇到了以下问题:我试图从论坛上抓取帖子，我想提取帖子的标签。下面是标记类的HTML代码：这种格式在整个表单中是一致的。如何提取“高级物理”？

浏览 5提问于2021-06-08得票数 0

回答已采纳

1回答

如何测试美汤对象的类型？

、、

这可能是一个非常基本的Python问题，尽管我在Beautiful Soup中遇到过它。问题是我不知道如何编写if语句来测试该类型

浏览 6提问于2018-03-05得票数 2

回答已采纳

1回答

美汤在源文件中找到标签的位置？

、、

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

使用python保存Google教程的脱机副本。

、、

我的问题是，目前整个程序似乎很麻烦。你能提出改进的方法吗？对于ex，我喜欢避免使用Re并使用BeautifulSoup提取‘gc’类下的链接。从BeautifulSoup导入urllib导入re * import os #将从url = '‘html = urllib.urlopen( URL ).read() .rea

浏览 6提问于2014-10-07得票数 1

点击加载更多

如何使用BeautifulSoup查找第一个锚标签的文本