问过滤掉HTML标签并解析python中的实体
EN

Stack Overflow用户

提问于 2008-09-01 05:25:02

回答 7查看 25.7K关注 0票数 18

因为我害怕正则表达式，所以我正在尝试找到一种方法来删除所有HTML标记，并从Python中的字符串中解析出HTML实体。

python

html

回答 7

Stack Overflow用户

回答已采纳

发布于 2008-09-01 06:07:01

使用lxml，它是python最好的xml/html库。

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果您只是想清理html，请查看lxml.html.clean module

票数 39

Stack Overflow用户

发布于 2008-09-01 05:53:39

使用BeautifulSoup！它非常适合这种情况，在这种情况下，您有可疑的优点的传入标记，并且需要从中获得一些合理的东西。只需传入原始文本，提取所有字符串标记，然后将它们连接起来。

票数 16

Stack Overflow用户

发布于 2008-09-01 05:49:04

虽然我同意Lucas的观点，正则表达式并不那么可怕，但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准非常复杂(特别是当您想要任意解析从Internet上删除的"HTML“页面时)，您将需要编写大量代码来处理各种情况。看来python includes one out of the box. .。

您还应该检查python bindings for TidyLib，它可以清理损坏的超文本标记语言，使任何超文本标记语言解析的成功率更高。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37486

复制

相似问题

问过滤掉HTML标签并解析python中的实体
EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤掉HTML标签并解析python中的实体EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤掉HTML标签并解析python中的实体
EN