大家好,我是皮皮。
昨天在Python白银交流群【凡人不烦人】问了一个Python
数据提取的问题,下图箭头处是他想要的内容:
一开始以为是规则的,后来文件发过来,却是另外一番模样。
一开始想的是使用正则表达式,不过看上去也非常的局限,提取一个答案都觉得费劲。
后来他自己在网上找到了一个好用的库html2text
,代码如下:
import html2text
html = open("foobar.html").read()
print html2text.html2text(html)
代码运行之后,可以得到比较清晰的结果,如下图所示:
完美地解决问题!下次再遇到从本地html
中提取文字的需求,不妨试试看这个库。
大家好,我是皮皮。这篇文章主要盘点了一个数据提取的基础问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【凡人不烦人】提问,感谢【dcpeng】、【瑜亮老师】、【此类生物】等人参与学习交流。