如何从BeautifulSoup获取文本，获取错误

从BeautifulSoup获取文本的方法是使用其提供的.text属性。该属性可以提取HTML或XML文档中的纯文本内容。

以下是一个示例代码，演示如何使用BeautifulSoup获取文本：

from bs4 import BeautifulSoup

# 假设有一个HTML文档的内容如下：
html_doc = """
<html>
<head>
<title>示例文档</title>
</head>
<body>
<h1>标题</h1>
<p>这是一个段落。</p>
<a href="https://www.example.com">链接</a>
</body>
</html>
"""

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 获取文本内容
text = soup.text

# 打印结果
print(text)

运行以上代码，将输出以下结果：

示例文档

标题
这是一个段落。
链接

获取错误的方法是使用.find()或.find_all()等方法时，未正确指定要查找的元素或属性，或者指定的元素或属性在文档中不存在。这可能导致返回None或空列表。

为了避免获取错误，可以在使用.find()或.find_all()方法之前，先使用.find()或.find_all()方法查找父元素，然后再在父元素的基础上继续查找子元素或属性。此外，还可以使用条件判断语句来确保元素或属性存在。

请注意，以上代码示例中没有提及腾讯云相关产品和产品介绍链接地址，因为这些信息与BeautifulSoup获取文本的方法无直接关联。如果您需要了解腾讯云相关产品和产品介绍，请参考腾讯云官方文档或咨询腾讯云官方支持。

如何从BeautifulSoup获取文本，获取错误

python、python-3.x、beautifulsoup

我正在尝试从网页获取文本- https://www.symantec.com/security_response/definitions.jsp?但是我仍然面临错误，我能得到它写着- 4/18/2019 rev. 2的部分吗 from bs4 import BeautifulSoupimport resoup = BeautifulSoup(page.

浏览 11提问于2019-04-19得票数 0

3回答

无法获取开始标记和结束标记之间的文本

python、beautifulsoup

soup = BeautifulSoup("<p>'hello'<a>'my link'</a></p>", 'html.parser')None 输出是否正常

浏览 2提问于2017-04-05得票数 0

1回答

尝试使用python解析html时重定向到主页

python、html、parsing、beautifulsoup、scraper

/api/mathes"data = page.text我尝试使用此代码从获取文本，但每次尝试从页面获取文本时，我都会被重定向到主页，并且我的代码会从主页输出html。我试图抓取的页面是一个.php文件，而不是html或文本

浏览 0提问于2016-11-02得票数 0

2回答

我想用Python从HTML文件中提取文本。我想要的输出基本上与从浏览器复制文本并将其粘贴到记事本中得到的输出相同。首先，它会拾取不需要的文本，比如JavaScript源。而且，它不能解释HTML实体。例如，我希望将HTML源中的'转换为文本中的撇号，就像我将浏览器内容粘贴到记事本中一样。但是，它并不能准确地生成纯文本；它会生成必须转换为纯文本的markdown。它没有提供示例或文档，但代码看起来很干净。

浏览 0提问于2010-08-19得票数 2

回答已采纳

2回答

如何在Python中使用str.replace() <br>或'=‘？

python

我很难去掉我从某个网页上抓取的文本中所有多余的HTML标签，然而，Python中的str.replace()似乎不适用于<br>和=这样的目标，而<li></li>等其他标签将被成功地替换。

浏览 2提问于2017-04-14得票数 0

1回答

如何使用编码JSoup文档文本

jsoup

我有一个这样的节点我需要像这样获取div元素的文本我从.text()方法得到的输出是在BeautifulSoup中，它将返回> something < not encoded输出。如何从JSoup获取未转换的文本？

浏览 0提问于2013-07-03得票数 0

1回答

Python re.sub，re.split未能在长篇中拆分单词

python、regex、python-2.7、beautifulsoup

我试图从存储在光盘上的HTML文档中列出单词列表。当我试图拆分这些单词并将它们添加到我的单词向量中时，我的结果是一团糟。文档正在被读到BS4中，比如：我不明白为什么会这样。我想审判失败是因为它错了？

浏览 3提问于2014-08-09得票数 1

回答已采纳

2回答

如何抓取既包含纯文本又包含“双引号”文本的表数据？

python、web-scraping、beautifulsoup

我试图从zone-h.org网页上抓取数据。首先，我通过在脚本中添加cookie绕过了网页captcha错误。然后我用BeautifulSoup抓取这个表并存储它。但是，其中一列没有纯文本；信息存在于引号("...")中。soup.find_all('table')[0] df_domain = pd.DataFrame(df)如何从L (Loc

浏览 29提问于2019-08-01得票数 0

回答已采纳

1回答

Beautifulsoup -如何从的获取文本

python、beautifulsoup

一切都很顺利，但是我想要找到<span>之间的文本。我可以找回第一个，但我不能找到下一个。但是如何获取下一个“span”之间的文本呢？提供'/n' 任何帮助都将不胜感激。

浏览 0提问于2019-11-17得票数 0

1回答

使用bs4与python一起解析文件，如何从锚标记中获取文本？

python、html、beautifulsoup

Title</TITLE><a href="facebook.com">Face book</a></HTML> 如何从带有bs4的锚标记中获取脸书和Google文本，每次使用soup.find_all('a').text时，它都会返回属性错

浏览 1提问于2022-06-14得票数 -3

回答已采纳

1回答

巨蟒和美丽的汤，捡起所有的元素

python、elements

下面的with代码如下所示：soup = BeautifulSoup(webtext它获得第一个元素文本。准确地说，我修改了我的代码，如下所示：soup = BeautifulSoup(class":"dr_article"}) for

浏览 5提问于2013-08-01得票数 5

回答已采纳

1回答

优美汤:如何获取<a>标记的内容，即<h1>中的内容？

python、html、beautifulsoup

我一直在试图从twitter的个人资料中提取这个名字，唯一的问题是，美丽的汤占据了整个元素。我已经尝试过{"class":}来指定元素，但是每当我这样做时，它就会导致 url = "https://twitter.com/barackobama"soup = BeautifulSoup</e

浏览 0提问于2018-11-16得票数 3

回答已采纳

2回答

Python从BeautifulSoup获取文本

python、html、beautifulsoup

我有一些HTML代码，如下所示：<p>ccc</p>ddd 如何获取'bbb‘和'ddd'？

浏览 4提问于2013-01-08得票数 3

回答已采纳

3回答

BeautifulSoup如何从<a>标签中获取文本

python、web-scraping、beautifulsoup

我不知道如何从这门课中提取课文我想要7,457，但我不明白.我试过了，但它只给我显示了链接response = requests.get(url) soup =

浏览 1提问于2020-10-20得票数 0

回答已采纳

3回答

获取属性错误：“NoneType”对象没有属性getText

python、function、beautifulsoup、nonetype

我已经写了一半的代码，从RSS提要中提取标题和链接，但这会导致上述错误。在获取文本时，这两个函数中都存在错误。我想去掉输入的标题和链接标签的字符串。from bs4 import BeautifulSoupimport re a= str(a) a=bsoup.find('link').getText(

浏览 3提问于2013-10-27得票数 1

回答已采纳

1回答

使用Python中的美观汤从元素中获取文本值

python、beautifulsoup

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。from threading import Thread from bs4 import BeautifulSoup</em

浏览 5提问于2021-07-16得票数 1

回答已采纳

3回答

抓取/抓取包含特定文本的网站/网页，没有关于任何此类网站/网页的事先信息

python、web-scraping、scrapy、screen-scraping、nutch

这意味着，人们应该已经意识到包含正在搜索的文本的网站/网页。我的情况不同，我没有包含我正在搜索的文本的网站/网页的事先信息。所以我不能使用种子URL来被像nutch和scrapy这样的工具抓取。有没有一种方法可以抓取给定文本的网站/网页，而不需要知道任何可能包含该文本的网站/网页？

浏览 0提问于2016-01-20得票数 0

1回答

如何使用BeautifulSoup* bs4获取HTML的内部文本值？*

python、html、beautifulsoup

在使用BeautifulSoup bs4时，如何从HTML标签中获取文本？当我运行这行代码时：我得到的title标签如下：现在我只想得到它的内部文本，page name如何做到这一点？

浏览 0提问于2015-01-14得票数 7

回答已采纳

1回答

用python创建动态论坛签名生成器

python、django、image、forum、signature

到目前为止，我没有任何错误，但就像我说过的那样，我不知道下一步该怎么做才能实现我的目标。任何建议都将不胜感激。这就是我到目前为止所拥有的(我在这里使用了漂亮的汤作为解析器。谢谢)：播放器的名称将位于user之后，因此示例为from urllib import urlopen def get_avatar(player_name):

浏览 0提问于2011-08-17得票数 2

回答已采纳

3回答

从HTML中读取头内容

python、html、html-parsing

.# </html> 如何阅读自定义部分？

浏览 1提问于2010-12-20得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从BeautifulSoup获取文本，获取错误

相关·内容

如何从BeautifulSoup获取文本，获取错误

无法获取开始标记和结束标记之间的文本

尝试使用python解析html时重定向到主页

使用python语言将html转换为文本

如何在Python中使用str.replace() <br>或'=‘？

如何使用编码JSoup文档文本

Python re.sub，re.split未能在长篇中拆分单词

如何抓取既包含纯文本又包含“双引号”文本的表数据？

Beautifulsoup -如何从的获取文本

使用bs4与python一起解析文件，如何从锚标记中获取文本？

巨蟒和美丽的汤，捡起所有的元素

优美汤:如何获取<a>标记的内容，即<h1>中的内容？

Python从BeautifulSoup获取文本

BeautifulSoup如何从<a>标签中获取文本

获取属性错误：“NoneType”对象没有属性getText

使用Python中的美观汤从元素中获取文本值

抓取/抓取包含特定文本的网站/网页，没有关于任何此类网站/网页的事先信息

如何使用BeautifulSoup* bs4获取HTML的内部文本值？*

用python创建动态论坛签名生成器

从HTML中读取头内容

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐