因为我害怕正则表达式,所以我正在尝试找到一种方法来删除所有HTML标记,并从Python中的字符串中解析出HTML实体。
发布于 2008-09-01 06:07:01
发布于 2008-09-01 05:53:39
使用BeautifulSoup!它非常适合这种情况,在这种情况下,您有可疑的优点的传入标记,并且需要从中获得一些合理的东西。只需传入原始文本,提取所有字符串标记,然后将它们连接起来。
发布于 2008-09-01 05:49:04
虽然我同意Lucas的观点,正则表达式并不那么可怕,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准非常复杂(特别是当您想要任意解析从Internet上删除的"HTML“页面时),您将需要编写大量代码来处理各种情况。看来python includes one out of the box. .。
您还应该检查python bindings for TidyLib,它可以清理损坏的超文本标记语言,使任何超文本标记语言解析的成功率更高。
https://stackoverflow.com/questions/37486
复制相似问题