前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第三篇 爬虫技术之PyQuery理论介绍篇

第三篇 爬虫技术之PyQuery理论介绍篇

作者头像
python编程从入门到实践
发布2019-10-22 16:41:18
4630
发布2019-10-22 16:41:18
举报
文章被收录于专栏:python编程军火库
hello,各位小伙伴,大家好,上次我们是了解到了html的基础知识,那有人就有疑问了,我是查看到了html上的信息了,我想获取了,但是如何才能把其上面的我想要的信息给拿下来呢?有什么工具吗?嗯,说明这位同学还是很爱思考的,目前我们市面上可以获取html的相关工具是非常多的,目前工业界用的比较多的是:BeautifulSoup、xpath、 pyquery。今天我们介绍的是pyquery 这个也是我在工作中用的最多的一款工具,可以说是非常的得心应手。好,接下来我们就来了解一下这个工具。

介绍

pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/

  pyquery 可让你用 jQuery 的语法来对 xml 进行操作。这I和 jQuery 十分类似。如果利用 lxml,pyquery 对 xml 和 html 的处理将更快。

  这个库不是(至少还不是)一个可以和 JavaScript交互的代码库,它只是非常像 jQuery API 而已。

安装

pip install pyquery

或下载安装:https://pypi.python.org/pypi/pyquery/#downloads

初始化

 引入库:from pyquery import PyQuery as pq

  1、直接字符串

doc=pq("<html></html>")   pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号了

  2、lxml.etree

doc=pq(etree.fromstring("<html></html>"))

  可以首先用 lxml 的 etree 处理一下代码,这样如果你的 HTML 代码出现一些不完整或者疏漏,都会自动转化为完整清晰结构的 HTML代码。

  3、直接传URL

doc=pq('http://www.baidu.com')

  这里就像直接请求了一个网页一样,类似用 urllib2 来直接请求这个链接,得到 HTML 代码

 4、传文件

doc=pq(filename='hello.html')

  可以直接传某个路径的文件名。

好的,本次就对pyquery的基本情况做一个简单的介绍,下一篇中我们会为大家带来pyquery demo级别的实战,精彩内容敬请期待。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python编程从入门到实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 安装
  • 初始化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档