lxml parse html返回的结果为空，美丽汤返回的是合理的解析结果

lxml是一个Python库，用于解析和处理XML和HTML文档。当使用lxml解析HTML文档时，有时可能会遇到返回结果为空的情况。这可能是由于以下几个原因导致的：

HTML文档格式错误：lxml对于格式不正确的HTML文档可能无法正确解析。在这种情况下，建议先检查HTML文档的格式是否正确，可以使用在线HTML验证工具进行检查和修复。
缺少必要的解析器：lxml依赖于底层的解析器库，如libxml2和libxslt。如果系统中没有正确安装这些解析器库，lxml可能无法正常解析HTML文档。在这种情况下，需要确保正确安装了这些解析器库，并且在使用lxml之前，通过设置解析器路径或环境变量来指定解析器的位置。
解析器配置问题：lxml提供了一些解析器配置选项，可以影响解析结果。例如，可以通过设置解析器的特性来控制解析过程中的严格性和容错性。如果解析器的配置选项不正确，可能会导致解析结果为空。在这种情况下，建议查阅lxml的文档，了解解析器配置选项的使用方法，并根据需要进行相应的配置。

相比之下，BeautifulSoup（美丽汤）是另一个流行的Python库，用于解析和处理HTML文档。与lxml相比，BeautifulSoup在处理不规范的HTML文档时更具容错性，可能会返回更合理的解析结果。

如果lxml解析HTML文档返回的结果为空，可以尝试使用BeautifulSoup来解析同样的HTML文档。以下是使用BeautifulSoup解析HTML文档的示例代码：

from bs4 import BeautifulSoup

html = """
<html>
<head>
<title>Example</title>
</head>
<body>
<h1>Hello, World!</h1>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')
result = soup.find('h1').text
print(result)

上述代码使用BeautifulSoup解析HTML文档，并提取其中的<h1>标签内容。执行代码后，将输出Hello, World!。

腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储等。具体推荐的产品和产品介绍链接地址可以根据具体的应用场景和需求来确定。您可以访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于腾讯云的产品和服务信息。

lxml parse html返回的结果为空，美丽汤返回的是合理的解析结果

、、、、

我确实理解传统上他们说lxml比BeautifulSoup更严格，然而，我不明白的是：In [1]: headers = {'User-Agent': ''} In [8]: tree = lxm

浏览 64提问于2017-07-03得票数 2

2回答

find_all()方法从BeautifulSoup返回空列表

、、、

我的本意是建立一个易趣网刮刀。它还返回一个空列表。我完全不知道是怎么回事 import requests

浏览 3提问于2020-06-01得票数 1

回答已采纳

1回答

美汤soup.body不还

、、、

什么能使美丽汤返回soup.body作为None，知道soup.title返回预期的结果print(soup.prettify()) 给出页面的精确html。

浏览 1提问于2014-07-29得票数 2

回答已采纳

1回答

美丽的汤没有返回预期的结果？

、

我在试着读取一个巨大的文件。执行简单的搜索会返回明显不正确的结果！BeautifulSoup html= data.read() soup = BeautifulSoup(html, 'lxml</e

浏览 0提问于2014-01-23得票数 0

2回答

无法计算出美丽汤对象的编码

、

我一直在用“美丽汤：”打印这个网站的文本使用lxml解析站点会返回乱七八糟和奇怪的字符，其他解析器根本不会返回任何内容。什么是正确的解析器使用，我将如何实现它？我是一个初学者的美丽汤，并会真正感谢一个简单，明确的解释。谢谢!

浏览 5提问于2016-11-20得票数 0

回答已采纳

2回答

当网络抓取时，我们把"html.parser“的论点放在哪里？

、、、

请看下面的代码片段from bs4 import BeautifulSouphtml = requests.get(url, "html.parser")html2 = requests.get(url) soup2 = BeautifulSoup( html.text, "<em

浏览 2提问于2020-08-11得票数 1

回答已采纳

2回答

Python请求并不是提取所有元素。

、、

是否有人对此有解释(前提是打印response.content时行在那里)？下面是我使用的代码：import requests response = session.get(url) soup = BeautifulSoup(response.c

浏览 0提问于2018-11-15得票数 1

回答已采纳

2回答

如何使用漂亮汤解析<pre>标记中的数据？

、

当我试图从以下网站抓取数据时我从网站外的床上得到了这个，如果我使用请求和美丽的汤，我什么都得不到。为什么会这样呢？代码：soup = BeautifulSoup(r.content,'lxml')返回值为空：[]

浏览 2提问于2018-04-20得票数 2

回答已采纳

2回答

BeautifulSoup不查找表行

、、

我试图从中获取信息，但是使用漂亮的汤只返回<table>的两个<tbody>子表中的第一个表行中的一个。在google返回中进行检查： <table cellpadding="2" cellspacing="1" class="data" defaultsort="currentposonsor

浏览 1提问于2018-04-06得票数 0

回答已采纳

1回答

Selenium不会在点击按钮后等待页面重新加载

、、、

我正在使用selenium从一个用JavaScript加载数据的中抓取体育比赛结果。我已经编写了一个简单的函数来获取html代码，并将其发送到美丽汤，然后解析相关部分(见下文)。为了获得所有结果，我需要selenium单击“显示更多结果”按钮。不幸的是，这不能正常工作-该函数只返回最初可见的结果： url="'http:&#x

浏览 1提问于2017-01-18得票数 0

3回答

如何使用YouTube解析Python？

、、、

我正在尝试从嵌入在下面代码中的YouTube中解析xml。我正在尝试显示所有的标题。然而，当我试图打印'title‘时，我遇到了麻烦，只出现回车行。有什么建议吗？#convert to string:#close file because we dont need it anymore: #parse

浏览 0提问于2012-10-08得票数 1

回答已采纳

1回答

返回空数组的soup.findAll

、、、、

美丽汤上的findAll函数返回一个空数组。我知道当内容找不到，但有符合我搜索标准的内容时，就会出现这个问题，所以我不确定哪里出了问题。代码如下： # Import librariesimport urllib.requestimport html5libresponse = reque

浏览 25提问于2021-08-03得票数 0

1回答

如何在Python的“美丽汤”中使用自定义解析器？

、、、、

我正在使用解析和修改一组HTML文件。HTML文件是角模板，这意味着它们的标记在某种程度上不同于常规HTML文档中的标记(混合大小写属性、指令、输入/输出绑定等)。美丽汤 (html.parser，lxml，html5lib)中列出的解析器没有一个完全符合我的需求。最接近它的是在<e

浏览 0提问于2017-12-18得票数 4

回答已采纳

3回答

美丽的汤中找不到lxml

、、、

我正在尝试使用beautifulsoup4来解析一系列用XHTML语言编写的网页。我假设为了获得最好的结果，我应该使用xml解析器，据我所知美丽汤唯一支持的解析器是lxml。我找到了另外两个用户的记录，他们发布了同样的问题还有这里的我使用这篇文章(见下面这行的链接)重新安装和更新了lxml<

浏览 2提问于2016-07-28得票数 6

0回答

使用动态id抓取div id标签

、

我想从网页抓取内容与美丽的汤。我已经试过了。forums.hardwarezone.com.sg/eat-drink-man-woman-16/%5Bofficial%5D-chit-chat-students-part-2-a-5526993-55.html').read() soup = BeautifulSoup(r, "lxml

浏览 9提问于2017-01-02得票数 0

回答已采纳

4回答

python解析xml文本

、

我想在python中解析xml，但将其作为字符串，而不是从文件中提取。有人能帮我吗？

浏览 5提问于2011-02-16得票数 3

回答已采纳

4回答

Python的新技术-一般Web抓取

、

为了学习更高级的Python，我要求自己创建一个定位到网站的python脚本(在本例中是imdb.com)，输入一个单词(已经声明为变量)，然后将前5个标题输出到数组中，然后输出到控制台。我的问题是:这样的事情可能吗？是否有使这成为可能的库/框架？如果可能的话，我该从哪里开始？Web抓取对我来说并不是什么新鲜事，但Python中的web抓取却是新的。我真正需要的是指引正确的</e

浏览 11提问于2014-04-16得票数 0

回答已采纳

1回答

美汤环境下lxml和html5lib的区别

、、、

在美丽汤的上下文中，lxml和html5lib解析器的性能之间有什么区别吗？') print item['href'] 我从使用lxml作为解析器开始，但注意到对于某些网站，尽管页面中有有效的链接，仍然没有输入同一页面适用于html5ib解析器。是否有任何特定

浏览 4提问于2013-09-03得票数 9

回答已采纳

1回答

Python BeautifulSoup

、

我正在使用Python BeautifulSoup从一个著名的歌曲站点中提取一些数据。这里是代码片段：from bs4 import BeautifulSoup except:print (res) soup = BeautifulSoup(res.text

浏览 2提问于2018-05-09得票数 0

3回答

用BeautifulSoup解码HTML实体并存储在SQL中

、、

我有这个HTML代码：<a href="http://smittenkitchen.com/blog/2008/10/mollys-apple-tarte-tatin/" molly’s apple tarte tatin</a>

浏览 0提问于2013-03-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

lxml parse html返回的结果为空，美丽汤返回的是合理的解析结果

相关·内容

lxml parse html返回的结果为空，美丽汤返回的是合理的解析结果

find_all()方法从BeautifulSoup返回空列表

美汤soup.body不还

美丽的汤没有返回预期的结果？

无法计算出美丽汤对象的编码

当网络抓取时，我们把"html.parser“的论点放在哪里？

Python请求并不是提取所有元素。

如何使用漂亮汤解析<pre>标记中的数据？

BeautifulSoup不查找表行

Selenium不会在点击按钮后等待页面重新加载

如何使用YouTube解析Python？

返回空数组的soup.findAll

如何在Python的“美丽汤”中使用自定义解析器？

美丽的汤中找不到lxml

使用动态id抓取div id标签

python解析xml文本

Python的新技术-一般Web抓取

美汤环境下lxml和html5lib的区别

Python BeautifulSoup

用BeautifulSoup解码HTML实体并存储在SQL中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐