BeautifulSoup相关概念总结
:https://cloud.tencent.com/developer/article/1471301
css基础以及选择器基础
:https://cloud.tencent.com/developer/article/1503349
css选择器进阶
:https://cloud.tencent.com/developer/article/1503325
- 最常用rp\_lxml= BeautifulSoup(response.text,'lxml')其他可以转至概念提取元素
主要有4大元素
- **Tag**: HTML 中的一个个标签
- **NavigableString**:可以遍历的字符串
- **BeautifulSoup**:BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag
- **Comment**:Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号。元素操作
使用
re_lxml.find('css选择器')
重点
只选择第一个出现的
使用
re_lxml.select('css选择器')
重点
会把满足CSS选择器所有内容都显示出来,输出为列表的形式
使用
re_lxml.标签名.标签名而不是用css选择器
重点
只选择第一个出现的
会把满足CSS选择器所有内容都显示出来,输出为列表的形式
但是有几个优点
rp_lxml.find_all('属性1','属性2')
rp_lxml.find_all('标签名',class_='属性')
rp_lxml.find_all(attrs={'属性名':'属性值'})
NavigableString.string即可获取标签内部的文字
他是一种特殊的Tap所有tap可以的操作他都可以
rp_lxml.attrs为{}
rp_lxml.name为document
剩下的可以去尝试不过个人感觉没啥意义
我觉得吧一个可以用用就是判断他是不是这个数据类型
print(type(未知对象.string))看他是不是comment对象