Beautifulsoup4 -获取多个非唯一标记的文本字符串并存储在列表中

BeautifulSoup4是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而灵活的方式来遍历解析文档树，并根据标记、属性和文本内容来查找和提取数据。

BeautifulSoup4的主要功能包括：

解析HTML/XML：BeautifulSoup4可以将HTML或XML文件解析为文档树，使得我们可以方便地遍历和操作文档中的元素。
标签选择器：BeautifulSoup4支持使用标签名称、CSS选择器、正则表达式等方式来选择和提取特定的标签。
属性选择器：BeautifulSoup4可以根据元素的属性值来选择和提取特定的标签。
文本提取：BeautifulSoup4可以提取标签中的文本内容，并支持多种文本处理方法，如去除空格、提取数字等。

对于获取多个非唯一标记的文本字符串并存储在列表中的需求，可以使用BeautifulSoup4的find_all()方法结合列表操作来实现。具体步骤如下：

导入BeautifulSoup模块：

from bs4 import BeautifulSoup

创建BeautifulSoup对象并解析HTML/XML文件：

soup = BeautifulSoup(html, 'html.parser')  # html为HTML/XML文件的字符串或文件对象

使用find_all()方法查找所有符合条件的标签：

tags = soup.find_all('tag_name')  # tag_name为需要查找的标签名称

遍历标签列表，提取文本内容并存储在列表中：

text_list = []
for tag in tags:
    text_list.append(tag.get_text())

最终，text_list中将包含所有符合条件的标签的文本内容。

推荐的腾讯云相关产品：腾讯云服务器（CVM）、腾讯云对象存储（COS）、腾讯云数据库（TencentDB）等。你可以通过访问腾讯云官方网站（https://cloud.tencent.com/）获取更详细的产品介绍和相关文档。

Beautifulsoup4 -获取多个非唯一标记的文本字符串并存储在列表中

、、、、

编辑:我也想帮助获取列出的每家公司的“业务类别”值，但是使用下面的答案，根据我的代码，strong.text.strip() == 'Classes of business'似乎不是True。我对漂亮的汤和python很有经验，但不管什么原因，似乎都无法获取这些数据。，这样可以帮助我遍历每一家公司)，每条记录都对应于一家公司，以及有关它们的更多信息，如地址、网址和诸如“接受来自美国的业务”之类的信息。我已经能够<e

浏览 3提问于2018-02-23得票数 1

回答已采纳

2回答

将多行字符串连接到Python中的数组中

、、

简而言之，我的代码应该从网站HTML中的特定标记(在beautifulsoup4的帮助下)获取文本，然后将它们加载到数组中。我尝试过各种方法，但无法将多行字符串连接到单个数组中。你会怎么做？打印productBrands逐行返回文本。

浏览 0提问于2016-07-19得票数 0

1回答

Python3XML数据到变量

、、、

我想读取数据从我的太阳能逆变器，并将其张贴到pvoutput.org。如何将这些属性存储在变量或数组中以便创建POST url？

浏览 1提问于2020-01-18得票数 0

回答已采纳

1回答

在RESTCONF中获取所有列表实例合法吗？

、

给出以下杨定义，在模块test中 key "name"; type string;} 如果路径表达式中的数据节点是杨列表节点，则必须根据以下规则对列表的键值(，如果有)进行编码:o表示杨列表的数

浏览 1提问于2019-05-14得票数 1

回答已采纳

1回答

仅当上一行中的文本与列表中的项目匹配时，我才能从字符串中提取特定文本之间的信息

、

仅当前一行与不同列表中的项目匹配时，我才需要提取字符串中某些关键字之间的文本。我有一个损坏的xml文件，我将其作为字符串读取(这是我必须这样做的唯一方法)，然后使用regex分隔这些项，到目前为止，它工作得很好。现在，在列表中的每个项目中，我都有多个前面有<abc>GH1234</a

浏览 1提问于2019-08-18得票数 0

1回答

对于这个系统，什么是更好的solr查询？

、、

索引- songID主、艺术家全文(非唯一)、艺术家btree (非唯一)、标题全文(非唯一)、标题btree (非唯一)TABLE3 --一个标记映射表，它包

浏览 2提问于2013-10-25得票数 0

回答已采纳

4回答

SQL -如何标记数据？

、、、

我需要存储短标签(A01，B34等)在SQL表中，并确保他们的索引。为字母表中的每个字母创建一个INT列是不可能的，因为条目可以有多个'A‘标签。首先，我将它们存储为一个用空格分隔的长字符串(例如"A01 B34")。但这需要一个LIKE%查询，该查询执行完全扫描并忽略任何索引。所以我在寻找替代方案。我现在使用SQL

浏览 1提问于2011-05-15得票数 0

回答已采纳

2回答

XSLT:变量和“空”标签

、

我有一个XML数据文件，其中包含一个由任意多个逗号分隔的值组成的字符串。我希望这些值在web浏览器中显示为每行一个值的列表。因此，我编写了一个XSLT模板，它接受这个字符串，显示第一个值，后跟一个换行标记(<br/>)，名称间隔正确，资源和字符串的其余部分。实际上，逗号正在被超文本标记语言<br/><e

浏览 0提问于2018-08-09得票数 1

3回答

HTML.fromHtml换行符消失

、、、、

我从一个HTML框中获取跨转文本，并使用HTML.toHtml将其转换为EditText标记字符串。这可以很好地工作。我已经验证了该字符串是正确的，并且在适当的位置包含了一个<br>。但是，当我使用HTML.fromHtml将标记的字符串转换回跨区文本以填充TextView或EditText时，第一段末尾的<b

浏览 3提问于2012-07-24得票数 11

回答已采纳

6回答

操作HTML字符串的内容，而不更改HTML

、、、

<h2>redaeH</h2><p>lla eht <span class="bright">tnetnoc</span> ereh</p> 我知道如何从HTML中提取字符串，并通过传递给函数并获得修改后的结果来操作它我更喜欢非语言特定的解决方案，但如果php/javascript必须是特定于语言的，那么了解它将是很有用的

浏览 0提问于2012-08-09得票数 1

回答已采纳

3回答

所使用的表类型(不包括BLOBs )的最大行大小为8126。您必须将某些列更改为文本或BLOB

我的表结构： `id` BIGINT(25) NOT NULL AUTO_INCREMENT,)ENGINE=InnoDB; 我可以插入最少的数据

浏览 9提问于2013-03-13得票数 0

1回答

在快捷键中使用“从列表中选择”()发布JSON列表[]

、、

理想模型"tags": [ "bar1\nbar2\nbar3" ] 注意:快捷方式示例使用“”操作返回所有标记如果

浏览 0提问于2020-08-18得票数 4

2回答

在JMeter中运行一次且仅运行一次大型文件列表(可能按特定顺序)

我在一个文件夹中有15000个单独的soap文件。但是，问题是文件夹中的文件会被随机选取并运行，一个文件可能会运行多次。这并不理想，因为每个请求都有一个唯一的相关id，如果一个文件get运行两次，那么第二次运行将会因为重复的相关id而失败。有没有什么办法，我可以告诉jmeter只运行一次文件？此外，由于某些soap请求依赖于已经运行的其他请求，因此需要能够以指定的

浏览 4提问于2012-06-02得票数 2

回答已采纳

1回答

从GtkTreeView标记列获取显示的文本

、、

我使用的是gtk_tree_view_column_new_with_attributes(NULL, renderer, "markup", 0, NULL);。当我为一行设置标记时，我使用g_markup_printf_escaped转义作为varargs传递的文本字符串中的任何字符。我需要一种稍后从这个编码的标记字符串中获取文本的

浏览 6提问于2019-10-07得票数 0

6回答

使用VARCHAR作为“孤儿”表的主键

、、、

我将创建一个包含3列的孤立表(与任何其他表都不存在任何关系)。字符串字段- VARCHAR( 32 ) -包含不超过32 charactersCol2的唯一数据-字符串字段-文本-包含charactersCol3 -数字(Bool) - INT(1) -INT(1)- 0/1用于标记的较大非唯一数据。我正在考虑使用Col1作为我的主键。我做了一些研究，并看到人们认为使用无

浏览 7提问于2012-04-17得票数 1

回答已采纳

1回答

转义html，除非在[code] [/code]标记中

、

我想解析一个字符串并输出它，执行以下操作：处理字符串中<

浏览 1提问于2018-01-28得票数 0

回答已采纳

1回答

将google地图链接到文本视图中的邮政编码

、

我已经把我的屏幕划分成两个线性布局。在第一个布局中，我加载了带有自定义标记的google地图。在第二个文件中，我有格式的地址。New York, NY-20202如何将这些邮政编码链接到我正在加载的第一个视图中的google地图。我已经在地图上有这些标记了。当用户单击任何邮政编码时，应该将谷歌地图放大到该标记。我试过了lin

浏览 4提问于2016-05-11得票数 1

回答已采纳

1回答

Apache -只在现有表中爬行新注入的URL

、、

现在，随着时间的推移，数据库将增加，在生成阶段，它将查找所有需要时间的URL。是否有方法指示Nutch只爬行新注入的URL，而不查看表(对于旧URL)。或者有什么更好的方法。

浏览 0提问于2020-05-18得票数 0

回答已采纳

2回答

QRegularExpression -如何从两个<ca>标记之间提取字符串？

、、

我试图在多个标记中获取文本，如下所示：Internal Auto-Configured Settings File<<对<cert>也做了同样的操作，但

浏览 1提问于2014-10-28得票数 0

回答已采纳

2回答

ASP.NET DropDownList -如何处理缺少的值？

、、

我在一个SQL Table中有一个值列表，用于插入一个DropDownList，其中有一个惟一的Integer作为每个项目的值，一个字符串作为可见文本(通过SqlDataSource)。数据库中还有第三个字段，它是指示列表项是否处于活动状态的标志(不活动的项不会显示在DropDownList中) 在下拉列表中所做的选择将作为整数值存储在数据库<e

浏览 0提问于2012-05-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Beautifulsoup4 -获取多个非唯一标记的文本字符串并存储在列表中

相关·内容

Beautifulsoup4 -获取多个非唯一标记的文本字符串并存储在列表中

将多行字符串连接到Python中的数组中

Python3XML数据到变量

在RESTCONF中获取所有列表实例合法吗？

仅当上一行中的文本与列表中的项目匹配时，我才能从字符串中提取特定文本之间的信息

对于这个系统，什么是更好的solr查询？

SQL -如何标记数据？

XSLT:变量和“空”标签

HTML.fromHtml换行符消失

操作HTML字符串的内容，而不更改HTML

所使用的表类型(不包括BLOBs )的最大行大小为8126。您必须将某些列更改为文本或BLOB

在快捷键中使用“从列表中选择”()发布JSON列表[]

在JMeter中运行一次且仅运行一次大型文件列表(可能按特定顺序)

从GtkTreeView标记列获取显示的文本

使用VARCHAR作为“孤儿”表的主键

转义html，除非在[code] [/code]标记中

将google地图链接到文本视图中的邮政编码

Apache -只在现有表中爬行新注入的URL

QRegularExpression -如何从两个<ca>标记之间提取字符串？

ASP.NET DropDownList -如何处理缺少的值？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐