爬虫基础-说说 Beautiful Soup

阅读本文大概需要 1.024 分钟

前言

在学习爬虫的过程,最重要的莫过于举一反三,多做项目,从项目中去发现问题,这个过程同样是我们成长的过程。下面我们就从实战项目开始,跟大家一起在爬虫的领域,打怪升级买装备……

今日主题:说说 beautifulsoup

beautifulsoup 是一个可以从 HTML 或 XML 文件中,提取数据的Python 库,能通过你喜欢的转换器实现惯用的文档导航查找,修改文档的方式。

注意下载4.0版本以上。

beautifulsoup 库主要功能

格式化后浏览器数据

访问 Tag

获取文本

注释处理

CSS 选择器

首先为了方便展示其功能,我们写一个简单的 HTML 文件,标题text.html

发送请求实例

frombs4importBeautifulSoup

首先是打开我们写好的文件,suop.prettify() 是美化输出格式。

然后是打印其类型,名字和内容

注释处理

text.html 中 标签内有注释 Elsie ,我们首先是用普通 string 打印出的是 NavigableString 即正常的字符串。

CSS查询

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('test.html'))

print(soup.select('.sister'))

print(soup.select('#link1'))

print(soup.select('head > title'))

首先把所有含 sister 元素的内容都打印出来。

下面是根据 ID 查找。

最后根据父子关系查找。

写在后面

点赞、转发、赞赏、收藏都是对小编的支持,支持越多,更新越快。

我希望能跟大家一起走进爬虫的世界,因为Python自身的优势,能让我们更容易独自完成对文字、图片、视频的爬取,这个过程既是我们进步的过程,也是我们展现技术的时候。愿与君探讨交流!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181027G1Q35A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券