文章/答案/技术大牛

发布

Python BeautifulSoup使用标签外的文本并将其存储为变量

Python BeautifulSoup是一个用于解析HTML和XML文档的库，它提供了一种方便的方式来遍历、搜索和修改文档树。使用BeautifulSoup，可以方便地从HTML页面中提取数据，并将其存储为变量。

在使用BeautifulSoup时，如果要获取标签外的文本，可以使用.string属性或.text属性来获取。.string属性只能用于单个标签，它返回标签内部的文本内容，但如果标签内有多个子节点，或者标签内有注释等内容，则返回结果可能为空。.text属性可以用于多个标签或包含子节点的标签，它返回所有文本内容的串联字符串。

以下是使用BeautifulSoup获取标签外的文本并将其存储为变量的示例代码：

from bs4 import BeautifulSoup

# 假设有一个HTML页面，其中有一个id为"content"的标签，我们想获取其标签外的文本
html_doc = '''
<html>
<body>
    <div id="content">
        这是一段文本。
        <p>这是一个段落。</p>
        <a href="https://www.example.com">这是一个链接。</a>
    </div>
</body>
</html>
'''

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 获取id为"content"的标签
content_tag = soup.find(id="content")

# 获取标签外的文本
text = content_tag.text.strip()

# 打印结果
print(text)

输出结果为：

这是一段文本。
这是一个段落。
这是一个链接。

关于Python BeautifulSoup的更多信息，可以参考腾讯云的相关产品文档：

BeautifulSoup官方文档
腾讯云CVM产品：提供了可扩展的云服务器，可用于部署和运行Python和BeautifulSoup。
腾讯云COS产品：提供了高可用的对象存储服务，可用于存储和管理HTML文档。
腾讯云CDN产品：提供了全球加速服务，可用于加速网站访问速度，加快HTML页面加载速度。

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求进行。

Python BeautifulSoup使用标签外的文本并将其存储为变量

、、、

我目前正在尝试解析特定网页中的文本，到目前为止工作得还不错。我只是在努力“获得”文本，以便进一步处理它。到目前为止，我的代码如下所示： basename (URL which will be scraped in general) soup = BeautifulSoup(ht

浏览 3提问于2021-04-23得票数 4

回答已采纳

2回答

使用文本文件从多个urls中抓取H1标记

、、、

我正在尝试做的是网络刮擦打印机页面(例如，，这是惠普激光喷气机)我正在尝试制作一个刮刀，它将使用打印机页面到达大约20个不同的urls，并抓取H1标签，其中打印机型号存储在标签中。我是python的新手，我想使用带有url的txt文件，并使用for循环将url用作变量。我目前的代码是这样的，并为单一的<

浏览 15提问于2018-08-21得票数 0

回答已采纳

2回答

在Bash中，这里的文档如何包含变量，然后存储在变量中？

、、

我在Bash脚本中有如下内容：IFS= read -d '' code << "EOF"from BeautifulSoup import BeautifulSouppage = BeautifulSoup(urllib2.urlopen("${URL}"))for image in images:print(ima

浏览 2提问于2014-12-02得票数 2

回答已采纳

2回答

Python BeautifulSoup:获取标记内的内容

、、、、

我的BeautifulSoup请求返回以下内容：<div><div class="dgreen"></div><div class="dorange"></div><div class="dred"></div><div class="dorange"></div>

浏览 3提问于2019-04-04得票数 0

3回答

BeautifulSoup问题

、

parnet1> <span>Text2</span><parent3></parnet3> 我正在用Python&BeautifulSoup来解析这一点。我有一个变量soupData，它存储需要对象的指针。例如，如果我有文本parent2<

浏览 4提问于2010-12-13得票数 0

回答已采纳

1回答

如何在Python中拆分中间的字符串

、

我正在使用BeautifulSoup从一个网站上抓取一些文本。我将擦除结果存储在一个变量中，该变量是一个包含特殊字符、字母和数字的字符串，没有空格。我试图找到一个解决方案，但我只找到了两种在python中拆分字符串的方法。第一种方法是在字符串中的

浏览 11提问于2019-10-20得票数 0

回答已采纳

1回答

使用BeautifulSoup查找具有相同CSS类的多个元素

、、

我尝试使用BeautifulSoup的find_all()来搜索具有标签"div“和类"wisbb_name”的元素。我要抓取的超文本标记语言来自。Fiers</div> 所有投手HTML代码都有相同的类，只是与之关联的文本不同。我已经使用下面这行代码从find_all()中获取所有结果，并获得与之相关的文本</e

浏览 19提问于2017-07-22得票数 1

回答已采纳

2回答

Python -只打印url和页名

我有以下代码：soup = BeautifulSoup(这是我第一次玩网络抓取，但我不太确定你如何进入"department": [{，然后捕获我想要的两个元素。

浏览 3提问于2022-11-03得票数 1

回答已采纳

1回答

如何在BeautifulSoup中只从web抓取文本列表中获取第一次数据

、

因此，我对python中的很陌生，并且我试图使用BeautifulSoup从他们的网站(特别是他们的下载页面)中获得最新版本的python，一旦我这样做，我就得到了一个文本格式的所有可用python版本的列表page = requests.get("https://www.python.org/downloads/

浏览 1提问于2020-03-29得票数 0

回答已采纳

1回答

在Python上使用replaceWith将HTML标记替换为BeautifulSoup时出现问题

、

我在Python语言中使用BeautifulSoup，在替换一些标签时遇到了问题。我正在查找<div>标签并检查孩子。如果这些子节点没有子节点(是NODE_TYPE =3的文本节点)，我会将它们复制为<p>。上做了同样的替换，它工作正常。我假设它有问题，因为额外的迭代遍历节点为n。我做错了什么，或者有什么更好的方法可以这样做？谢谢!PS。我正在使用

浏览 0提问于2010-08-12得票数 1

回答已采纳

2回答

Python BeautifulSoup -在找到的关键字周围添加标签

、、、、

在首先精确定位我感兴趣的文件之后，我现在想突出显示找到的关键字！使用BFSoup提供的find()-functions来确定位置等并不是什么大问题。但是在普通文本周围添加标签似乎是不可

浏览 0提问于2013-02-02得票数 2

回答已采纳

1回答

Python (美丽汤)拔出文字？

、、、

我想从多个html文件的两个标记之间提取一些文本，然后将该文本添加到单独的文件中。我很确定我应该用美汤来做这件事，但我不知道怎么做。我在这个网站上看过其他的问题，但是有一些细节让我觉得很困难。Foo_Bar.aa_BB">text to be translated</Generic:tagName>

浏览 3提问于2021-02-22得票数 0

1回答

在Access表中存储十六进制数据并随后检索它的推荐或最佳方法是什么？

、、

我有多个函数，使用十六进制表示颜色或unicode数据(例如，unicode 2713作为复选标记，FF9933用于黄色-橙色)。我现在正试图通过将它放入变量表来优化它，但是：除了使用基本文本字段外，我不知道如何存储十六进制数据，而如果将其存储为文本，则当我试图处理unicode时(例如，ChrW(&H 2713)工作，但ChrW那么，在MS Access 2007表中存储十六进制数据<e

浏览 1提问于2011-03-31得票数 0

回答已采纳

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

、、、、

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' for title in se

浏览 16提问于2019-12-24得票数 0

回答已采纳

3回答

从文本文件复制数据，并将其插入URL

、、

该程序将这四条信息存储在一个文本文件中，这样用户每次请求天气数据时都可以读取详细信息，而不必在每次请求时输入这些详细信息。这个问题涉及的模块是urllib和BeautifulSoup。import urllib.request问题：Town = line[1]Long = line[3] f.clos

浏览 1提问于2018-03-24得票数 2

回答已采纳

1回答

如何使用python从网站获取文本数据并保存为excel文件

、、、

我想创建一个脚本，获取以下网站中的所有数据：https://www.bis.doc.gov/dpl/dpl.txt，并将其存储在excel文件中，并使用Python语言计算其中的记录数。我试图通过实现以下代码来实现： import requestsfrom bs4 import BeautifulSoup URL = "https://www.bis.doc.

浏览 14提问于2021-11-16得票数 0

回答已采纳

3回答

有没有像HtmlAgilityPack (.NET)这样好的html解析器呢？

、、

我正在寻找一个像HtmlAgilityPack (开源.NET项目：)这样的好的html解析器，但可以与Python一起使用。有人知道吗？

浏览 2提问于2009-08-03得票数 2

回答已采纳

2回答

使用Python的正则表达式和BeautifulSoup

、、

我必须解析(报废)一个网页(html)，并获取一些信息，将其存储在csv中。我必须同时使用正则表达式和BeautifulSoup来完成这项工作，而且我以前完全没有使用Python的经验。我已经设法安装了python和BeautifulSoup。

浏览 0提问于2012-09-07得票数 1

回答已采纳

2回答

美丽的Soup BS4 "data-foo“标签之间关联的文本没有显示

、、、

从这个标签：我想提取“2011年8月13日星期六”使用bs4美丽汤。我的现行守则：from bs4 import BeautifulSoup url = 'https://www.premi

浏览 3提问于2017-08-13得票数 0

回答已采纳

1回答

用Beautiful Soup从HTML文件中提取挪威语文本，丢失挪威语字符

、

我有一个Python脚本，它使用Beautiful Soup从目录中的HTML文件中提取文本。然而，我遇到了让编码正常工作的问题。起初，我认为HTML文件本身可能有问题。但是，当我在Notepad.exe中查看一个超文本标记语言文件的源代码时，我看到了如下内容：Vi er her for deg, og du må gjerne ta kontakt med oss på而且，Internet Explorer文本与Python脚本附

浏览 3提问于2013-04-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python BeautifulSoup使用标签外的文本并将其存储为变量

相关·内容

Python BeautifulSoup使用标签外的文本并将其存储为变量

使用文本文件从多个urls中抓取H1标记

在Bash中，这里的文档如何包含变量，然后存储在变量中？

Python BeautifulSoup:获取标记内的内容

BeautifulSoup问题

如何在Python中拆分中间的字符串

使用BeautifulSoup查找具有相同CSS类的多个元素

Python -只打印url和页名

如何在BeautifulSoup中只从web抓取文本列表中获取第一次数据

在Python上使用replaceWith将HTML标记替换为BeautifulSoup时出现问题

Python BeautifulSoup -在找到的关键字周围添加标签

Python (美丽汤)拔出文字？

在Access表中存储十六进制数据并随后检索它的推荐或最佳方法是什么？

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

从文本文件复制数据，并将其插入URL

如何使用python从网站获取文本数据并保存为excel文件

有没有像HtmlAgilityPack (.NET)这样好的html解析器呢？

使用Python的正则表达式和BeautifulSoup

美丽的Soup BS4 "data-foo“标签之间关联的文本没有显示

用Beautiful Soup从HTML文件中提取挪威语文本，丢失挪威语字符

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐