文章/答案/技术大牛

发布

社区首页 >问答首页 >使用漂亮的汤正确解析空html标记

问使用漂亮的汤正确解析空html标记
EN

Stack Overflow用户

提问于 2017-03-24 14:28:22

回答 2查看 427关注 0票数 1

HTML有一个空元素的概念，如MDN所列。然而，漂亮的汤似乎不能很好地处理它们：

import bs4

soup = bs4.BeautifulSoup(
    '<div><input name=the-input><label for=the-input>My label</label></div>',
    'html.parser'
)
print(soup.contents)

我得到：

[<div><input name="the-input"><label for="the-input">My label</label></input></div>]

也就是说，输入已经包装了标签。

问题：有什么方法可以得到漂亮的汤来正确地解析这个吗？或者我还没有找到对这种行为的官方解释？

至少我希望这样的事情：

[<div><input name="the-input"></input><label for="the-input">My label</label></div>]

即，输入在标签之前自动关闭。

python

html

beautifulsoup

Stack Overflow用户

发布于 2017-03-24 14:45:08

我想说的是，“汤”正在尽它所能来修复这个html结构，在某些情况下，它实际上是有帮助的。

无论如何，对于您的情况，我会说使用lxml，它将根据您的需要解析html结构，或者尝试使用parsel。

票数 3

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43002091

复制

相似问题

问使用漂亮的汤正确解析空html标记
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用漂亮的汤正确解析空html标记EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用漂亮的汤正确解析空html标记
EN