专栏首页python-爬虫常用的re模块的正则匹配的表达式

常用的re模块的正则匹配的表达式

07.01自我总结

常用的re模块的正则匹配的表达式

一、校验数字的表达式

1.数字

^[0-9]\*$

2.n位的数字

^\d{n}$

3.至少n位的数字

^\d{n,}$

4.m-n位的数字

^\d{m,n}$

5.零和非零开头的数字

^(0|[1-9][0-9]\*)$

6.非零开头的最多带两位小数的数字

^([1-9][0-9]\*)+(\.[0-9]{1,2})?$

7.带1-2位小数的正数或负数

^(\-)?\d+(\.\d{1,2})$

8.正数、负数、和小数

^(\-|\+)?\d+(\.\d+)?$

9.有两位小数的正实数

^[0-9]+(\.[0-9]{2})?$

10.有1~3位小数的正实数

^[0-9]+(\.[0-9]{1,3})?$

11.非零的正整数

^[1-9]\d\*$ 或 ^([1-9][0-9]\*){1,3}$ 或 ^\+?[1-9][0-9]\*$

12.非零的负整数

^\-[1-9][]0-9"\*$ 或 ^-[1-9]\d\*$

13.非负整数

^\d+$ 或 ^[1-9]\d\*|0$

14.非正整数

^-[1-9]\d\*|0$ 或 ^((-\d+)|(0+))$

15.非负浮点数

^\d+(\.\d+)?$ 或 ^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0$

16.非正浮点数

^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*))|0?\.0+|0$

17.正浮点数

^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*$ 或 ^(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*))$

18.负浮点数

^-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*)$ 或 ^(-(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*)))$

19.浮点数

^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0)$

二、校验字符的表达式

1.汉字

^[\u4e00-\u9fa5]{0,}$

2.英文和数字

^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3.长度为3-20的所有字符

^.{3,20}$

4.由26个英文字母组成的字符串

^[A-Za-z]+$

5.由26个大写英文字母组成的字符串

^[A-Z]+$

6.由26个小写英文字母组成的字符串

^[a-z]+$

7.由数字和26个英文字母组成的字符串

^[A-Za-z0-9]+$

8.由数字、26个英文字母或者下划线组成的字符串

^\w+$ 或 ^\w{3,20}$

9.中文、英文、数字包括下划线

^[\u4E00-\u9FA5A-Za-z0-9_]+$

10.中文、英文、数字但不包括下划线等符号

^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11.禁止输入含有~的字符

[^~\x22]+

三、特殊需求表达式

1.Email地址

^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$

2.域名

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3.InternetURL

[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$

4.号码

1.手机号码

^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

2.国内电话号码(0511-4405222、021-87888822)

\d{3}-\d{8}|\d{4}-\d{7}

3.电话号码正则表达式(支持手机号码,3-4位区号,7-8位直播号码,1-4位分机号):

 ((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)

5.身份证号(15位、18位数字),最后一位是校验位,可能为数字或字符X

(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)

6.账号与密码

1.帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线)

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

2.密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线)

^[a-zA-Z]\w{5,17}$

3.强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间)

^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z])[a-zA-Z0-9]{8,10}$

4.强密码(必须包含大小写字母和数字的组合,可以使用特殊字符,长度在8-10之间)

^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z]).{8,10}$

7.时间

1.日期格式

^\d{4}-\d{1,2}-\d{1,2}

2.一年的12个月(01~09和1~12)

^(0?[1-9]|1[0-2])$

3.一个月的31天(01~09和1~31)

^((0?[1-9])|((1|2)[0-9])|30|31)$

8.xml文件

^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

9.中文字符的正则表达式

[\u4e00-\u9fa5]

10.空白行的正则表达式

\n\s\*\r (可以用来删除空白行)

11.HTML标记的正则表达式

<(\S\*?)[^>]\*>.\*?|<.\*? /> ( 首尾空白字符的正则表达式^\s\*|\s\*$或(^\s\*)|(\s\*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)

12.腾讯QQ号

[1-9][0-9]{4,} (腾讯QQ号从10000开始)

13.中国邮政编码

[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

14.IP地址

((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • css基础,css选择器

    优先级:! important > 行间式 > id > class > 标签 > 统配

    小小咸鱼YwY
  • python面向过程编程小程序- 模拟超市收银系统

    小小咸鱼YwY
  • python面向过程编程 - ATM

    小小咸鱼YwY
  • 常用正则表达式公式总结

    lyb-geek
  • 收藏一波:常用正则表达式公式总结

    Java团长
  • 必备之常用正则表达式

    熟练而优雅的使用正则,对于程序员来讲,实在太有意义了(即便非此类者,也是好处多多);它辅助处理复杂的文本查询和字符串操作,不仅能用之于代码,还能雅之于编辑器,浏...

    晚晴幽草轩轩主
  • 算法中描述复杂度的大O是什么意思?

    简介 算法是解决问题的方法,通常一个问题会有多种解决方法,就是有多种算法,那么我们如何决定哪个算法更好或者更高效呢? 为了描述一个算法的效率,就用到了这个大O,...

    dys
  • 唐宋文学诗人分布展示

    本文的数据是从搜韵获取而来的,地址为http://sou-yun.com/poetlife.html,为方便大家使用,将数据保存到了百度云盘,下载信息为:链接:...

    lzugis
  • Java基本语法练习

    1.编写程序,求100以内的全部素数。 实验源码: public class FirstClass { public static void main(St...

    lizelu
  • JAVA SYSTEM SOLUTIONS SSO PLUGIN FOR BMC MYIT 跨站脚本漏洞

      今天看到这个漏洞,找了一个国外的站复现了一下,并且想出了一个新的思路,分享一下。

    周俊辉

扫码关注云+社区

领取腾讯云代金券