首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python解析html[SGMLPa

因为要用python做学校网络的认证程序,需要解析服务器传回的html,本以为会像javascript里操作DOM那样简单,结果发现并不是 这样。...其实python里面有xml.dom模块,但是这次却不能用,为啥呢?...因为服务器传回的htmlxml角度看不是良构的,没有闭合的标签、没有 被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。...SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。...SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个: start_tagname(self, attrs) end_tagname(

1K30

pythonHTML网页解析BeautifulSoup学习笔记

= 'http://www.mmjpg.com/' #'User-Agent':请求方式 #'referer':哪个链接跳转进来的 start_html = requests.get...Soup = BeautifulSoup(start_html.text, 'lxml') #BeautifulSoup:解析页面 #lxml:解析器 #start_html.text...二、界面结构简述 主要参考:Python爬虫利器二之Beautiful Soup的用法 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为...-- Elsie -->] (4)属性查找 查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。...(open(url,'r',encoding = 'utf-8')).find_all("div",class_="caption col-md-12") #1.re库用正则,提取标签中的html

3.1K60
领券