如何在XML文档中提取HTML的文本版本？

在XML文档中提取HTML的文本版本可以通过以下步骤实现：

解析XML文档：使用XML解析器（如DOM或SAX）加载XML文档，并将其转换为可操作的数据结构，以便后续处理。
定位HTML元素：根据HTML元素的标签或属性，使用XPath或CSS选择器等方法定位到包含HTML内容的XML节点。
提取HTML文本：从定位到的XML节点中提取HTML内容。可以使用解析器提供的方法（如getTextContent()）获取节点的文本内容。
清理HTML标签：使用正则表达式或HTML解析器（如BeautifulSoup）去除HTML标签，只保留文本内容。
处理特殊字符：如果HTML中包含特殊字符（如实体引用），需要进行字符转义或解码，以确保文本的正确性。

以下是一个示例代码，演示如何使用Python的xml.etree.ElementTree库提取XML文档中的HTML文本版本：

import xml.etree.ElementTree as ET
import re

def extract_html_text(xml_content):
    # 解析XML文档
    root = ET.fromstring(xml_content)

    # 定位HTML元素
    html_elements = root.findall('.//html')

    # 提取HTML文本
    html_text = ''
    for element in html_elements:
        html_text += element.text

    # 清理HTML标签
    html_text = re.sub('<[^<]+?>', '', html_text)

    # 处理特殊字符
    html_text = html_text.replace('&amp;', '&')
    html_text = html_text.replace('&lt;', '<')
    html_text = html_text.replace('&gt;', '>')
    html_text = html_text.replace('&quot;', '"')
    html_text = html_text.replace('&apos;', "'")

    return html_text

# 示例用法
xml_content = '''
<root>
    <html>
        <body>
            <h1>Hello, World!</h1>
            <p>This is an example.</p>
        </body>
    </html>
</root>
'''

html_text = extract_html_text(xml_content)
print(html_text)

上述代码将输出以下结果：