一文读懂正则表达式的基本用法

什么是正则表达式?

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式不是Python独有的,目前主流的开发语言都支持正则表达式,在Python中是使用re模块来实现正则表达式。

正则表达式常用符号

符号

含义

*

匹配0个或多个表达式

+

匹配1个或多个表达式

^

匹配字符串的开头

$

匹配字符串的结尾

.

匹配任意单个字符,换行符除外

\

转义字符,把有特殊含义的字符转换为字面形式

?

匹配0或多个表达式,非贪婪模式

`a\

b`

匹配a或b

()

匹配括号内的表达式, 也表示一个组

[]

匹配其中的任意一个字符

[^]

匹配任意一个不在中括号里的字符

\n

匹配换行符

\t

匹配制表符

\w

匹配任意字母数字及下划线

\s

匹配任意空白字符

\d

匹配任意数字

match函数

re.match会尝试从字符串的起始位置匹配一个字符串表达式,如果匹配成功就返回匹配结果,如果匹配失败就返回None.

比如这里有一个字符串:

    content = 'open the command palette 123456 Hello world!'

我想要匹配出其中的数字,可以这样写:

import re

content = 'open the command palette 123456 Hello world!'
# 在match方法中,第一个参数为正则表达式,第二个参数为待匹配的字符串
result = re.match('^open.*?(\d+).*?world!$', content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(0, 44), match='open the command palette 123456 Hello world!'>
123456

这里^open指定了字符串的开头,.*?表示以非贪婪模式匹配0或多个字符,(\d+)表示我们想要提取的是1到多个数字,需要提取的内容一定要放在小括号里,后面接着.*?表示以非贪婪模式匹配0或多个字符,最后的world!$指定了字符串的结尾。

这里group(1)表示提取第一个小括号里的内容,如果有多个小括号,可分别使用group(2),group(3)来提取。

贪婪匹配与非贪婪匹配的区别

在上面的例子中,我们使用了.*?表示以非贪婪模式匹配0或多个字符,这里如果将?去掉,就变成了贪婪模式,它们之间的具体区别是什么呢?看下面这个例子:

import re

content = 'open the command palette 123456 Hello world!'

# 这里将(\d+)前面的?去掉,其他不变。
result = re.match('^open.*(\d+).*?world!$', content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(0, 44), match='open the command palette 123456 Hello world!'>
6

如上,匹配结果变成了一个6,而前面的12345不见了,这是因为.*是以贪婪模式匹配,它会匹配尽可能多的字符,紧接着的\d+也就只匹配到了一个数字6

关于包含换行符的匹配

在实际的正则匹配过程中,我们需要匹配的字符串常是很多行,这其中就必定包含了换行符,这个时候就要使用修饰符re.S来匹配包含了换行符的字符串。如下例:

import re

# 有换行的字符串要用三引号''''''引起来
content = '''open the command palette 
            123456 Hello world!'''

# 这里加入修饰符re.S
result = re.match('^open.*?(\d+).*?world!$', content, re.S) 
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(0, 57), match='open the command palette \n            123456 Hel>
123456

在网页匹配中,常用的修饰符有两种:

  • re.S :匹配包含换行符在内的所有字符
  • re.I :使匹配对大小写不敏感

关于转义字符的匹配

上面我们罗列的一堆正则表达式的常用字符,这些字符可以称为特殊字符,如果待匹配的字符串中本身就包含了这些特殊字符,如果不加处理,就会对我们的正则匹配造成干扰,这个时候就需要用反斜杠\来进行转义:

import re

content = 'price is $10.00'

result = re.match('^price.*?\$10\.00$', content)
print(result)
<_sre.SRE_Match object; span=(0, 15), match='price is $10.00'>

这里使用\$\.对字符$.分别进行转义

search函数

上面讲到的match函数是从字符串的开头进行逐个匹配,如果开头不匹配,则匹配失败,它的执行效率有点类似与单链表的查询操作,得从头开始挨着一个一个找,而search函数是首先是扫描整个字符串,然后返回第一个成功匹配的结果。

在很大一堆的字符串中,如果我们只需要其中的一小段字符串,就可以使用search函数进行匹配:

import re 

content = 'open the command palette 123456 Hello world!'

result = re.search('command.*?(\d+).*?world!', content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(9, 44), match='command palette 123456 Hello world!'>
123456

下面来看个例子,这是我在豆瓣读书的网页上复制的一段HTML代码:

HTML = """<div class="pl2">

              <a href="https://book.douban.com/subject/1770782/" onclick="&quot;moreurl(this,{i:'0'})&quot;" title="追风筝的人">
                追风筝的人


              </a>

                &nbsp; <img src="https://img3.doubanio.com/pics/read.gif" alt="可试读" title="可试读">


                <br>
                <span style="font-size:12px;">The Kite Runner</span>
</div>
<p class="pl">[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元</p>
<div class="star clearfix">
                  <span class="allstar45"></span>
                  <span class="rating_nums">8.9</span>

                <span class="pl">(
                    315272人评价
                )</span>
              </div>"""

这里我想用正则表达式匹配这本《追风筝的人》图书的书名,作者,评分和评价人数,我们可以这样匹配:

import re 

result = re.search('<a.*?>(.*?)</a>.*?<p.*?>(.*?)</p>.*?rating_nums.*?>(.*?)</span>.*?>\((.*?)\)</span>', HTML, re.S)
print(result)
print(result.group(1))
print(result.group(2))
print(result.group(3))
print(result.group(4))
<_sre.SRE_Match object; span=(34, 703), match='<a href="https://book.douban.com/subject/1770782/>

                追风筝的人



[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元
8.9

                    315272人评价

我解释一下上面这句正则表达式,<a.*?>(.*?)</a>用来匹配书名,<p.*?>(.*?)</p>用来匹配作者信息, rating_nums.*?>(.*?)</span>用来匹配评分,>\((.*?)\)</span>用来匹配评分人数,这里要将每一个需要提取的信息放在小括号里,以待下一步的输出,然后不同有用信息的正则表达式之间用.*?来连接,最后指定修饰符re.S进行换行匹配

然后调用result.group(1)来输出第一个小括号里的内容,调用result.group(2)来输出第二个小括号里的内容,以此类推,但是从输出结果我们可以看到有多余的空白行和我不想要的信息,比如出版社和图书价格,这里将输出稍微整理一下:

import re 

result = re.search('<a.*?>(.*?)</a>.*?<p.*?>(.*?)</p>.*?rating_nums.*?>(.*?)</span>.*?>\((.*?)\)</span>', HTML, re.S)
print(result)
print(result.group(1).strip())
print(result.group(2).strip()[:12])
print(result.group(3).strip())
print(result.group(4).strip())
<_sre.SRE_Match object; span=(34, 703), match='<a href="https://book.douban.com/subject/1770782/>
追风筝的人
[美] 卡勒德·胡赛尼 
8.9
315272人评价

如上,得到了我想要的信息。

希望这个示例对你有所启发。

findall()函数

在整个网页的正则匹配中,我们想要的信息往往处在一组同名的标签下类似的位置,只是属性值有所不同,想要提取这样的信息,就要使用findall()函数,该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容。相当于search()函数的拓展。

具体示例省略

compile()函数

这个方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中方便调用。例如:

import re 

pattern = re.compile('<a.*?>(.*?)</a>.*?<p.*?>(.*?)</p>.*?rating_nums.*?>(.*?)</span>.*?>\((.*?)\)</span>', re.S)
result = re.search(pattern, HTML)
print(result)
print(result.group(1).strip())
print(result.group(2).strip()[:12])
print(result.group(3).strip())
print(result.group(4).strip())
<_sre.SRE_Match object; span=(34, 703), match='<a href="https://book.douban.com/subject/1770782/>
追风筝的人
[美] 卡勒德·胡赛尼 
8.9
315272人评价

正则表达式的基本用法大致就是这些,下节我们尝试用正则表达式写一个小爬虫。

每天学习一点点,每天进步一点点。

END

推荐阅读:

requests库的基本用法

比较基础的urllib库来了解一下

原文发布于微信公众号 - 一个爱吃西瓜的程序员(youcoding)

原文发表时间:2018-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是攻城师

理解插入排序,希尔排序,选择排序的算法原理

在前面的文章中,其实已经把效率比较高的排序算法给分析过了,比如比较通用的快排,归并排序和堆排,还有用于特定场景的计数排序等。本篇我们把剩下的几种效率一般的排序算...

991
来自专栏老九学堂

【必读】超全的C语言基础知识大全

我们用一个简单的c程序例子,介绍c语言的基本构成、格式、以及良好的书写风格,加深小伙伴们对C语言的认识。

2422
来自专栏追不上乌龟的兔子

为什么Python中的None is None is None == True

最近在StackOverflow上看到了一个问题,为什么Python中的None is None is None返回True,看到大家的讨论后对Python中的...

8937
来自专栏lulianqi

支持各种特殊字符的 CSV 解析类 (.net 实现)(C#读写CSV文件)

csv(Comma Separated Values)逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本...

1542
来自专栏HTML5学堂

操作符与数据类型转换

上一期堡堡给大家讲解了关于JS的基础语法,虽然是一些非常基础的知识,但是它对大家的后期学习奠定了一定的基础。知识像一张网,基础越扎实,网住的鱼就越多,要告诉大家...

3098
来自专栏老马说编程

计算机程序的思维逻辑 (15) - 初识继承和多态

继承 上节我们谈到,将现实中的概念映射为程序中的概念,我们谈了类以及类之间的组合,现实中的概念间还有一种非常重要的关系,就是分类,分类有个根,然后向下不断细化...

2139
来自专栏程序员互动联盟

【编程基础】C++ Primer快速入门之七:运算符

一、表达式的定义 什么是表达式?表达式,是由数字、运算符、数字分组符号(括号)、自由变量和约束变量等以能求得数值的有意义排列方法所得的组合(1)。1 + 2是个...

3114
来自专栏PPV课数据科学社区

走近 Python (类比 JS)

Python 是一门运用很广泛的语言,自动化脚本、爬虫,甚至在深度学习领域也都有 Python 的身影。作为一名前端开发者,也了解 ES6 中的很多特性借鉴自 ...

41310
来自专栏机器学习算法工程师

客官,来嘛,谷歌小菜请你尝尝!

作者:柳行刚 编辑:王抒伟 谷歌面试题 等你来挑战 详情往下看 各位,看招 1 题目描述: 一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重...

3008
来自专栏老九学堂

【必读】C语言基础知识大全

C语言程序的结构认识 用一个简单的c程序例子,介绍c语言的基本构成、格式、以及良好的书写风格,使小伙伴对c语言有个初步认识。 例1:计算两个整数之和的c程...

5628

扫码关注云+社区

领取腾讯云代金券