首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BeautifulSoup的重要操作

BeautifulSoup的重要操作

作者头像
小小咸鱼YwY
发布2019-09-11 14:19:57
4520
发布2019-09-11 14:19:57
举报
文章被收录于专栏:python-爬虫python-爬虫

0806自我总结

BeautifulSoup

BeautifulSoup相关概念总结:https://cloud.tencent.com/developer/article/1471301

css基础以及选择器基础:https://cloud.tencent.com/developer/article/1503349

css选择器进阶:https://cloud.tencent.com/developer/article/1503325

一.BeautifulSoup的重要操作

  • 解析页面
- 最常用rp\_lxml= BeautifulSoup(response.text,'lxml')其他可以转至概念提取元素
主要有4大元素
- **Tag**: HTML 中的一个个标签
- **NavigableString**:可以遍历的字符串
- **BeautifulSoup**:BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag
- **Comment**:Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号。元素操作

二.Tap对象相关操作

1.对于tap的选取

1.find

使用re_lxml.find('css选择器')

重点只选择第一个出现的

2.select

使用re_lxml.select('css选择器')

重点会把满足CSS选择器所有内容都显示出来,输出为列表的形式

3.直接操作

使用re_lxml.标签名.标签名而不是用css选择器

重点只选择第一个出现的

4.find_all

会把满足CSS选择器所有内容都显示出来,输出为列表的形式

但是有几个优点

  • 使用多个指定名字的参数可以同时过滤tag的多个属性 rp_lxml.find_all('属性1','属性2')
  • 要某个标签不要其中某个属性 rp_lxml.find_all('标签名',class_='属性')
  • 定义一个字典参数来搜索包含特殊属性的tag rp_lxml.find_all(attrs={'属性名':'属性值'})

2.对于tap的操作

1.标签之间的转换

详情至BeautifulSoup概念

2.选取的元素相关操作
  • tap.text:内容的文本
  • tap.name:标签名字
  • tap.attrs:标签的属性
  • tap..标签p.attrs:标签内标签p的属性
  • tap.'属性名':标签的指定属性对应的内容
  • tap.标签p.'属性名':标签内标签p的指定属性属性
  • tap.get('属性名'):标签的指定属性对应的内容
  • tap.标签p.get('属性名'):标签内标签p的指定属性属性

三.NavigableString对象相关操作

NavigableString.string即可获取标签内部的文字

四.BeautifulSoup对象相关操作

他是一种特殊的Tap所有tap可以的操作他都可以

rp_lxml.attrs为{}

rp_lxml.name为document

剩下的可以去尝试不过个人感觉没啥意义

五.Comment对象相关操作

我觉得吧一个可以用用就是判断他是不是这个数据类型

print(type(未知对象.string))看他是不是comment对象

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-08-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0806自我总结
  • BeautifulSoup
    • 一.BeautifulSoup的重要操作
      • 二.Tap对象相关操作
        • 1.对于tap的选取
        • 2.对于tap的操作
      • 三.NavigableString对象相关操作
        • 四.BeautifulSoup对象相关操作
          • 五.Comment对象相关操作
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档