首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >过滤掉HTML标签并解析python中的实体

过滤掉HTML标签并解析python中的实体
EN

Stack Overflow用户
提问于 2008-09-01 05:25:02
回答 7查看 25.7K关注 0票数 18

因为我害怕正则表达式,所以我正在尝试找到一种方法来删除所有HTML标记,并从Python中的字符串中解析出HTML实体。

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2008-09-01 06:07:01

使用lxml,它是python最好的xml/html库。

代码语言:javascript
复制
import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果您只是想清理html,请查看lxml.html.clean module

票数 39
EN

Stack Overflow用户

发布于 2008-09-01 05:53:39

使用BeautifulSoup!它非常适合这种情况,在这种情况下,您有可疑的优点的传入标记,并且需要从中获得一些合理的东西。只需传入原始文本,提取所有字符串标记,然后将它们连接起来。

票数 16
EN

Stack Overflow用户

发布于 2008-09-01 05:49:04

虽然我同意Lucas的观点,正则表达式并不那么可怕,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准非常复杂(特别是当您想要任意解析从Internet上删除的"HTML“页面时),您将需要编写大量代码来处理各种情况。看来python includes one out of the box. .。

您还应该检查python bindings for TidyLib,它可以清理损坏的超文本标记语言,使任何超文本标记语言解析的成功率更高。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37486

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档