lxml如何保留HTML标记结构？

lxml是一个Python库，用于处理XML和HTML文档。它提供了一种方法来解析、操作和生成XML和HTML文档。要保留HTML标记结构，可以使用lxml的HTML解析器，并使用tostring()方法将解析后的文档转换回HTML字符串。

下面是一个示例代码，展示了如何使用lxml来保留HTML标记结构：

from lxml import etree, html

# HTML文档
html_doc = """
<html>
<head>
<title>Example</title>
</head>
<body>
<h1>Heading</h1>
<p>This is a paragraph.</p>
</body>
</html>
"""

# 使用lxml的HTML解析器解析HTML文档
parsed_doc = html.fromstring(html_doc)

# 将解析后的文档转换回HTML字符串，并保留标记结构
preserved_html = html.tostring(parsed_doc, encoding='unicode')

# 打印结果
print(preserved_html)

运行以上代码，输出结果如下：

<html>
<head>
<title>Example</title>
</head>
<body>
<h1>Heading</h1>
<p>This is a paragraph.</p>
</body>
</html>

在这个例子中，我们首先使用fromstring()方法将HTML文档解析为一个lxml的Element对象。然后，我们使用tostring()方法将解析后的文档转换回HTML字符串，并通过设置encoding='unicode'参数来保留标记结构。最后，我们打印输出结果，即保留了HTML标记结构的HTML字符串。

推荐的腾讯云相关产品：腾讯云服务器（CVM）、腾讯云对象存储（COS）、腾讯云内容分发网络（CDN）。

腾讯云产品介绍链接地址：