前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python笔记:HTMLParser用法

python笔记:HTMLParser用法

作者头像
超级大猪
发布2019-11-22 11:50:55
3560
发布2019-11-22 11:50:55
举报
文章被收录于专栏:大猪的笔记大猪的笔记

1 获取文章的图片链接

代码语言:javascript
复制
def getHtmlPics(strHtml):
    class parseLinks(HTMLParser.HTMLParser):
        def __init__(self):
            HTMLParser.HTMLParser.__init__(self)
            self.links = []
        def handle_starttag(self, tag, attrs):
            if tag == 'img':        
                for name, value in attrs:       
                    if name == 'src':
                        self.links.append(value)                        
    lParser = parseLinks()
    lParser.feed(strHtml)
    return lParser.links

2 移除html中特定的tag

代码语言:javascript
复制
import HTMLParser
def removeHtmlTag(htmlstr,allowTags):
    class parseLinks(HTMLParser.HTMLParser):
        def __init__(self):
            HTMLParser.HTMLParser.__init__(self)
            self.result = ""
        def handle_starttag(self, tag, attrs):
            if tag in allowTags:
                self.result += self.get_starttag_text()                
        def handle_endtag(self, tag):
            if tag in allowTags:
                self.result += "</"+tag+">"
        def handle_data(self, data):
                self.result+= data
    lParser = parseLinks()
    lParser.feed(htmlstr)
    return lParser.result
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-09-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档