前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何利用 Beautiful Soup 爬取网页数据

如何利用 Beautiful Soup 爬取网页数据

作者头像
村雨遥
发布2022-06-15 09:24:26
3480
发布2022-06-15 09:24:26
举报
文章被收录于专栏:JavaPark

定义

Python中的一个库,主要用于从网页爬取数据;

安装

代码语言:javascript
复制
pip install beautifulsoup4

四大对象

Beautiful Soup将复杂的HTML文档转换成树形结构,树中的每个节点都是Python对象,对象可归纳为以下4种;

Tag

XMLHTML中的标签tag相同,tag属性可被增删修改,操作方法和字典一样,最常用的属性如下;

  • name
  • attributes
NavigableString

获取标签之后,用于获取标签内部的文字;

BeautifulSoup

表示一个文档的全部内容,大多数情况下都可以将它当作Tag对象,是一个特殊的Tag对象,可用于分别获取其类型、名称及属性;

Comment

Comment是一个中枢类型的NavigableString对象,输出内容不含注释符号;

代码语言:javascript
复制
#!/usr/bin/python3
# -*- coding:utf-8 -*-
# @Time    : 2018-11-16 10:30
# @Author  : Manu
# @Site    : 
# @File    : beautiful_soup.py
# @Software: PyCharm

from bs4 import BeautifulSoup

html = """
<html>
<head>
<title>村雨</title>
</head>
<body>
<p class="title" name="blog"><b>村雨的博客</b></p>
<li><!--注释--></li>
<a href="https://blog.csdn.net/github_39655029/article/details/83933199" target="_blank">
        <span class="article-type type-1">
            原        </span>
        Python爬虫之网络请求      </a>

<a href="https://blog.csdn.net/github_39655029/article/details/84100458" target="_blank">
        <span class="article-type type-1">
            原        </span>
        爬虫实践--豆瓣电影当前上映电影信息爬取      </a>
        
</body>
</html>
"""
soup = BeautifulSoup(html, 'lxml')
print(soup.name)
print(soup.title.name)
print(soup.prettify())
# 获取title
print('title:', soup.title.text)
# 获取head
print('p:', soup.p.text)
a_list = soup.a.attrs
print(a_list.get('href'))

# 获取Title标签的文字内容
print(soup.title.string)

# 获取对象名称
print(soup.name)
# 获取对象属性
print(soup.attrs)
# 获取对象类型
print(type(soup.name))
if type(soup.li.string) == element.Comment:
    print('comment:', soup.li.string)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 定义
  • 安装
  • 四大对象
    • Tag
      • NavigableString
        • BeautifulSoup
          • Comment
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档