前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫之正则表达式(1)

Python爬虫之正则表达式(1)

作者头像
py3study
发布2020-01-20 11:33:17
4630
发布2020-01-20 11:33:17
举报
文章被收录于专栏:python3python3

廖雪峰正则表达式学习笔记

1:用\d可以匹配一个数字;用\w可以匹配一个字母或数字;

  • '00\d' 可以匹配‘007’,但是无法匹配‘00A’;
  • ‘\d\d\d’可以匹配‘010’
  • ‘\w\w\d’可以匹配‘py3’;

2:.可以匹配任意字符;

  • 'py.'可以匹配'pyc''pyo''py!'等等。

3:在正则表达式中,要匹配变长字符:

  1. *表示任意个字符(包括0个);
  2. +表示至少一个字符;
  3. 表示0个或1个字符;
  4. {n}表示n个字符;
  5. {n,m}表示n-m个字符;
  6. \s 可以匹配一个空格(也包括Tab等空白符);
  7. ‘-’是特殊字符,在正则表达式中,用‘\’转义;

4:复杂例子:\d{3}\s+\d{3,8}

  • \d{3}表示匹配3个数字,例如‘010’
  • \s+表示至少一个空格,例如匹配‘ ’‘  ’等;
  • \d{3, 8}表示3-8个数字,例如‘1234567’

5:要做更精确地匹配,可以用[]表示范围

  • [0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线;
  • [0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'a100''0_Z''Py3000'等等;
  • [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;
  • [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

^表示行的开头,^\d表示必须以数字开头。

$表示行的结束,\d$表示必须以数字结束。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-04-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1:用\d可以匹配一个数字;用\w可以匹配一个字母或数字;
  • 2:.可以匹配任意字符;
  • 3:在正则表达式中,要匹配变长字符:
  • 4:复杂例子:\d{3}\s+\d{3,8}
  • 5:要做更精确地匹配,可以用[]表示范围
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档