在Python中使用XPath在h1标签中获取结尾有空格的文本时,可以通过以下步骤来消除"\t":
from lxml import etree
import re
html = """
<html>
<head></head>
<body>
<h1>标题一\t </h1>
</body>
</html>
"""
# 解析HTML文本
html_tree = etree.HTML(html)
# 获取h1标签中的文本内容
h1_text = html_tree.xpath("//h1/text()")[0]
# 去除"\t"和空格
cleaned_text = re.sub(r"\t|\s", "", h1_text)
完整的代码如下所示:
from lxml import etree
import re
html = """
<html>
<head></head>
<body>
<h1>标题一\t </h1>
</body>
</html>
"""
# 解析HTML文本
html_tree = etree.HTML(html)
# 获取h1标签中的文本内容
h1_text = html_tree.xpath("//h1/text()")[0]
# 去除"\t"和空格
cleaned_text = re.sub(r"\t|\s", "", h1_text)
print(cleaned_text)
这样就可以消除h1标签中结尾的空格和"\t"符号,得到最终的文本内容。
领取专属 10元无门槛券
手把手带您无忧上云