首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何获取保留标记的BeautifulSoup NavigableString的字符串形式

如何获取保留标记的BeautifulSoup NavigableString的字符串形式
EN

Stack Overflow用户
提问于 2018-06-22 21:49:41
回答 1查看 1.8K关注 0票数 0

我正在使用Python的BeautifulSoup处理一个超文本标记语言格式的大型数据文件。

我得到了NavigableStrings,我需要在打印出来之前对它进行unicode编码。如果我从NavigableString中获取get_text()或.string,似乎会去掉其中的所有HTML标记。

另一方面,NavigableString本身似乎没有.encode("utf-8")类型的选项。

那么,如何才能在不剥离标记的情况下将NavigableString转换为普通字符串呢?

EN

回答 1

Stack Overflow用户

发布于 2018-06-22 22:12:12

要将HTML打印为文本,您只需将其转换为字符串,然后您可以将其编码为UTF-8,如下所示:

代码语言:javascript
复制
from bs4 import BeautifulSoup

html = '''<body>
    <div>hello</div>
    </body>
'''

soup = BeautifulSoup(html)
print str(soup).encode('utf8')
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50989482

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档