前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >四种采集方式

四种采集方式

作者头像
用户8442333
修改2021-05-21 10:12:15
5700
修改2021-05-21 10:12:15
举报
文章被收录于专栏:python知识
四种采集方式的比较

抓取方法

速度

使用难度

备注

正则表达式

困难

常用正则表达式在线正则表达式测试

lxml

一般

需要安装C语言依赖库唯一支持XML的解析器

Beautiful

较快/较慢(取决于解析器)

简单

PyQuery

较快

简单

Python版的jQuery

说明:Beautiful的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。

使用正则表达式

如果你对正则表达式没有任何的概念,那么推荐先阅读《正则表达式30分钟入门教程》,然后再阅读我们之前讲解在Python中如何使用正则表达式一文。

使用XPath和Lxml
BeautifulSoup的使用

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。

  1. 遍历文档树
    • 获取标签
    • 获取标签属性
    • 获取标签内容
    • 获取子(孙)节点
    • 获取父节点/祖先节点
    • 获取兄弟节点
  2. 搜索树节点
    • find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
    • select_one / select:CSS选择器

说明:更多内容可以参考BeautifulSoup的官方文档

PyQuery的使用

pyquery相当于jQuery的Python实现,可以用于解析HTML网页。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 四种采集方式的比较
  • 使用正则表达式
  • 使用XPath和Lxml
  • BeautifulSoup的使用
  • PyQuery的使用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档