专栏首页赖权华的笔记Python网络爬虫笔记(一):网页抓取方式和LXML示例

Python网络爬虫笔记(一):网页抓取方式和LXML示例

(一)   三种网页抓取方法

1、    正则表达式:

模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了。

2、    Beautiful Soup

模块使用Python编写,速度慢。

安装:

pip install beautifulsoup4

3、    Lxml

模块使用C语言编写,即快速又健壮,通常应该是最好的选择。

(二)   Lxml安装

pip install lxml

如果使用lxml的css选择器,还要安装下面的模块

pip install cssselect

(三)   使用lxml示例

 1 import urllib.request as re
 2 import lxml.html
 3 #下载网页并返回HTML
 4 def download(url,user_agent='Socrates',num=2):
 5     print('下载:'+url)
 6     #设置用户代理
 7     headers = {'user_agent':user_agent}
 8     request = re.Request(url,headers=headers)
 9     try:
10         #下载网页
11         html = re.urlopen(request).read()
12     except re.URLError as e:
13         print('下载失败'+e.reason)
14         html=None
15         if num>0:
16             #遇到5XX错误时,递归调用自身重试下载,最多重复2次
17             if hasattr(e,'code') and 500<=e.code<600:
18                 return download(url,num=num-1)
19     return html
20 html = download('https://tieba.baidu.com/p/5475267611')
21 #将HTML解析为统一的格式
22 tree = lxml.html.fromstring(html)
23 # img = tree.cssselect('img.BDE_Image')
24 #通过lxml的xpath获取src属性的值,返回一个列表
25 img = tree.xpath('//img[@class="BDE_Image"]/@src')
26 x= 0
27 #迭代列表img,将图片保存在当前目录下
28 for i in img:
29     re.urlretrieve(i,'%s.jpg'%x)
30     x += 1

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python+Selenium笔记(十八):持续集成jenkins

    (一)安装xmlrunner 使用Jenkins执行测试时,测试代码中会用到这个模块。  pip install xmlrunner (二)安装jenkins ...

    free赖权华
  • Python网络爬虫笔记(三):下载博客园随笔到Word文档

    (一)   说明 在上一篇的基础上修改了下,使用lxml提取博客园随笔正文内容,并保存到Word文档中。 操作Word文档会用到下面的模块: pip insta...

    free赖权华
  • 算法学习笔记(一):插入排序和线性查找

    free赖权华
  • 同步等待方法

    function waitVar(key,varb, fun) { //等待指定变量,返回:-1:无数据,继续等待 -2:超时 1:成功。fun不支持...

    用户1075292
  • 第六章(1.7)深度学习实战——用lstm做小说预测

    两只橙
  • JAVA中的值传递和引用传递

    先来看一个作为程序员都熟悉的值传递的例子: ... ... //定义了一个改变参数值的函数 public static void changeValue(int...

    小柒2012
  • Jira服务工作台路径遍历导致的敏感信息泄露漏洞分析

    本文中,作者通过对JIRA Servcie Desk应用下普通用户和管理员账户的权限测试,发现可以普通用户身份访问获取到管理员账户关键路径下的一些敏感信息,这些...

    FB客服
  • 读写excel(.xls or .xlsx)

    https://github.com/xiaomingtongxie/springboot-study/blob/master/spring-study/src...

    小小明童鞋
  • RPA技术轻松解决ERP系统间数据交换难题

    企业ERP系统建立的初衷,是构建整个企业业务流程的信息系统。但在信息系统建设过程中,往往由于成本和实施周期等问题,往往会造成多个业务系统之间的隔阂,无法实现直接...

    蕉黄
  • 使用 swiper 轮播插件遇到的问题及解决方法

    我只是记录一下我在使用过程中遇到的几个属性,详细API大家可以直接去官网查看:Swiper4.x使用方法

    德顺

扫码关注云+社区

领取腾讯云代金券