专栏首页Golang开发Python基础(15)——正则表达式

Python基础(15)——正则表达式

re.match()

re.match(正则表达式,要匹配的字符串),匹配出以字符串的起始位置开始匹配正则表达式,如果匹配,返回匹配对象(Match Object),否则返回None(注意不是空字符串"")。

import re
print(re.match('hello','hello world'))
print(re.match('world','hello world'))
# <_sre.SRE_Match object; span=(0, 5), match='hello'>
#None

单字符匹配

字符

说明

[]

匹配中括号里任意一个字符

[^]

除了中括号里的字符意外

\s

任意空格

\S

非空格

\d

匹配数字0-9

\D

匹配非数字,表示除了数字之外的字符

\w

任意字符[A-Za-z0-9]

\W

匹配非单词字符

点号匹配

import re

result = re.match("A.C", "ABC")
print(result.group())
result = re.match("A.C", "A1C")
print(result.group())

中括号匹配

import re

result = re.match("A[B1D]C", "ABC")
print(result.group())
result = re.match("A[BCD]C", "AGC")
if result:
    print(result.group())

竖线匹配

text = "123test"
regexStr = "(123|txt)"
matchOjc = re.match(regexStr,text)
if matchOjc:
   print(matchOjc.group(1))

开头结尾匹配

字符

说明

^

以箭头后面的字符开头

$

以美元符号前面的字符结尾

text = "test123"
regexStr = "^t.*3$"
if re.match(regexStr,text):
   print("match")

多个字符匹配

字符

说明

*

匹配前一个字符出现0次或者无限次,即可有可无

+

匹配前面的字符出现出现1次或者无限次,即至少有1次

?

匹配前一个字符出现1次或者0次,即要么有1次,要么没有,同时使贪婪变成非贪婪模式

{m}

匹配前一个字符出现m次

{m,n}

匹配前一个字符出现从m到n次

import re

regStr = '[A-Za-z_]+[\w]*'
result = re.match(regStr, "test_1")
if result:
    print(result.group())
result = re.match(regStr, "1_test")
if result:
    print(result.group())

匹配分组

字符

功能

|

匹配左右任意一个表达式

(ab)

将括号中字符作为一个分组

\num

引用第num分组匹配到的字符串

(?P<name>)

分组起别名

(?P=name)

引用别名为name分组匹配到的字符串

import re

regStr = '[\w]{4,20}@(163|qq|gmail)\.com'
result = re.match(regStr, "test@qq.com")
if result:
    print(result.group())

'r'是防止字符转义的 如果路径中出现'\t'的话 不加r的话\t就会被转义 而加了'r'之后'\t'就能保留原有的样子。

import re

regStr = r'<(\w*)><(\w*)>.*</\2></\1>'
result = re.match(regStr, "<html><head>test</head></html>")
if result:
    print(result.group())
result = re.match(regStr, "<html><head>test</body></html>")
if result:
    print(result.group())

分组别名

import re

regStr = r'<(?P<label1>\w*)><(?P<label2>\w*)>.*</(?P=label2)></(?P=label1)>'
result = re.match(regStr, "<html><head>test</head></html>")
if result:
    print(result.group())
result = re.match(regStr, "<html><head>test</body></html>")
if result:
    print(result.group())

匹配子表达式

使用小括号()将想要提取的内容括起来。

import re
content = 'hello 12345 python'
result = re.match('^h\w{4}\s(\d+)\s\w+',content)
print(result.group())
print(result.group(1))
print(result.span())

贪婪匹配

点(.)可以匹配任意字符(除去换行符)星号()代表匹配前面字符的无限次。点星(.)组合可以匹配任意字符,但是点星(.)会匹配尽可能多的字符,被认为是贪婪匹配.贪婪匹配表达式^h.(\d+)\s\w+造成group(1)只会得到数字7,因为点星(.*)会尽可能的取匹配字符,就把1234也吞噬了,只留下数字5了

import re
content = 'hello 12345 python'
result = re.match('^h.*(\d+)\s\w+',content)
print(result.group())
print(result.group(1))
print(result.span())
# hello 12345 python
# 5
# (0, 18)

非贪婪匹配

非贪婪匹配的模式在点星后面加一个问号?即点星问(.*?)是非贪婪匹配,尽可能的少匹配字符

import re
content = 'hello 12345 python'
result = re.match('^h.*?(\d+)\s\w+',content)
print(result.group())
print(result.group(1))
print(result.span())

匹配修饰符

修饰符

说明

re.I

对大小写不敏感

re. L

做本地化识别匹配

re. M

多行匹配,影响^和$

re. S

匹配包括换行在内的所有字符

import re
content = '''hello 12345
python'''
result = re.match('^h.*?(\d+).*?n$',content,re.S)
print(result.group())
print(result.group(1))
print(result.span())

匹配整个字符串,直到找到一个匹配的对象,匹配结束没有找到匹配对象才放回None

import re

result = re.search('\d+', "查找数字:1245")
if result:
    print(result.group())

findall

匹配所有符合规律的内容,返回包含结果的列表

import re

rList = re.findall('\d+', "查找数字:1245注册时11112中1")
for r in rList:
    print(r)
#1245
#11112
#1

sub

re.sub(pattern, repl, string, count=0, flags=0) 使用repl替换string中每一个匹配的子串后返回替换后的字符串。 当repl是一个字符串时,可以使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。 当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。 count用于指定最多替换次数,不指定时全部替换。

import re
content = 'hello12345python'
result = re.sub('\d',"",content)
print(result)
#hellopython
import re


def func(matchObj):
    if matchObj:
        return "python"

print(re.sub(r"\d+", func, 'hello 123'))

split

根据匹配进行切割字符串,并返回一个列表

import re

rList = re.split(r':| ', "查找数字:1245注册时 11112中1")
for r in rList:
    print(r)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CSS定位

    特性: 1. 移动的出发点是自身标准流的位置 2. 相对定位移动的元素不会对别的元素产生干扰,“没有脱标”,真正占得位置还是标准流的位置(肉体不在 灵魂永驻...

    羊羽shine
  • Golang包——sync

    1.它允许任意读操作同时进行 2.同一时刻,只允许有一个写操作进行 3.并且一个写操作被进行过程中,读操作的进行也是不被允许的 4.读写锁控制下的多个写操...

    羊羽shine
  • Vue开发环境搭建

    nodejs中集成了npm 因此需要安装nodejs,官方地址是https://nodejs.org/en/ 查看当前npm版本

    羊羽shine
  • CentOS 7中firewall防火墙详解和配置以及切换为iptables防火墙

    https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Se...

    Java后端技术
  • Linux笔记一

    1.内部命令:echo 查看内部命令帮助:help echo 或者 man echo

    HUC思梦
  • 简单的正则表达式

    特殊字符 ^ $ * ? + {2} {2,} {2,5} | [] [^] [a-z] . \s \S \w \W [\u4E00-\u9FA5] ...

    听城
  • CRF和LSTM 模型在序列标注上的优劣?

    作者:谢志宁 https://www.zhihu.com/question/46688107/answer/117448674

    zenRRan
  • 2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享

    上周,我有机会参加在伦敦举行的第三届深度学习峰会,上两届分别在旧金山和波士顿举行。 深度学习峰会由 RE.WORK主办,汇集了从工业领域到学术领域不同背景的专业...

    CSDN技术头条
  • 90后婚恋交友行为报告 | 基于30万真实用户数据分析

    相信你也好奇这些问题,今天这份婚恋交友行为报告也许能解答你的疑惑,或印证你的猜想。

    Spark学习技巧
  • 免费真机调试 -- Xcode7

      刚新安装了Xcode7 Version 7.1 beta , 据说这个版本可以免费真机调试,于是用了一个新的AppID测试了,发现真的可以免费真机调试了呢!...

    tandaxia

扫码关注云+社区

领取腾讯云代金券