如何在python中使用漂亮的汤提取标签之间的文本

、

我正在尝试从以下html结构中提取文本： "the text I want to get"我已经提取了超链接，但我不知道如何提取文本。

浏览 0提问于2017-02-05得票数 2

1回答

提取特定a-标记后面的文本。

、、、、

我在用python从html代码中提取文本时遇到了问题。代码如下：我只想提取一个特定链接后面的文本。我在anchor2里知道一些词。因此，提取带有漂亮汤4的a标签之间的内容并不是一个问题，但经过相当多的搜索之后，我没有找到任何解决方案，只提取我的

浏览 0提问于2015-01-26得票数 1

回答已采纳

2回答

Python漂亮的汤避免在find_all()中重复

、、、

我正在使用漂亮的汤在Python中进行网络抓取。我试图用粗体或斜体或两者都提取文本。考虑下面的HTML片段。 HelloWorld 如果我使用命令sp.find_all(['i', 'b'])，可以理解，我得到

浏览 7提问于2020-04-28得票数 0

回答已采纳

2回答

用于NLP的漂亮的汤条页内容

、、

我正在创建一个新闻解析器，它可以总结来自不同站点的新闻，并根据新闻内容创建关键字。大多数新闻源将新闻内容包装在article标记中，因此我从站点中提取它以获取内容。问题是，当使用漂亮的汤时，它将返回文章标记中的原始HTML，其中有时包含图像、链接和标签(如 )。我的问题是，有没有一种简单的方法可以像用户看到的那样获取页面的书面内

浏览 8提问于2022-09-30得票数 -1

回答已采纳

1回答

用美汤和python提取标签信息

、、、

some blah </body><body> some blah </body>我想用漂亮的汤将每一项的名称存储在一个列表中以下是目前为止的尝试： for c in soup.findAll("item

浏览 2提问于2012-05-10得票数 2

2回答

BeautifulSoup排除findAll中的标记

、、、

在漂亮汤中，如何在使用findAll时排除特定标签中的标签。<tr>标记中的标记。soup.findAll(['p']) 上面的代码将获取所有的标记，但我需要在<tr>标记中提取标记。

浏览 1提问于2020-08-13得票数 4

回答已采纳

1回答

在一个特定的标签后面使用漂亮的汤来提取文本？

、、

我需要从下面给出的html页面强标签后提取文本？我怎么才能用漂亮的汤做呢。它引起了我的问题，因为它没有任何类或id，所以选择这个标签的唯一方法是使用文本。{strong}名称：{/strong}萨姆·史密斯{br}山姆·史密斯

浏览 2提问于2018-12-24得票数 0

3回答

使用python提取html文件中的特定部分

、、、、

如何提取html文件的特定部分示例到目前为止，我使用漂亮汤获得了不带所有标签的文本版本的html。但我希望我的代码只读上面提到的文件的索赔部分。

浏览 32提问于2020-05-17得票数 0

回答已采纳

1回答

python漂亮的汤提取标签之间的出现次数

、、、

我想提取的数字“文件它”之间的标签在网页上。这是我的代码。"html.parser") print(len(nameList))但是在“讨论组”的情况下，它应该是2，但它不起作用，结果是0。为什

浏览 1提问于2017-03-13得票数 0

回答已采纳

2回答

提取美丽汤中的标签值

、、

我正在使用python中的漂亮汤解析一个html文档。div class="_3auQ3N">\u20b9<!我想知道如何将这些值提取到两个不同的字符串(或值)中？

浏览 4提问于2018-06-06得票数 0

回答已采纳

1回答

JSON行中断Python中的空白

、、

我见过一些类似的问题，但并不完全是我想问的(至少我可以找到)。我使用下面三行代码来生成一个api请求，该请求返回文章的各个方面。self.format_url(api, version), params=payload) return json_data 我请求的数据返回得很好，我已经知道了如何像我想要的那样提取文本参数。唯一的问题是我想保留段落中断，但是下面的article_te

浏览 1提问于2015-03-17得票数 1

回答已采纳

0回答