因为要用python做学校网络的认证程序,需要解析服务器传回的html,本以为会像javascript里操作DOM那样简单,结果发现并不是 这样。 因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有 被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。 SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。 中的所有连接(标签)中的地址(href属性的值)提取出来,放到一个list里面,很实 用的功能。 下面让举个例子利用URLLister提取出上面mp3下载的地址: date="上面那一堆…………" lister=URLLister() lister.feed(date) 用feed()把要处理的html