前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫前的准备

爬虫前的准备

作者头像
热心的社会主义接班人
发布2018-05-16 15:55:13
5660
发布2018-05-16 15:55:13
举报
文章被收录于专栏:cs

渣渣一个,需要准备一些不知道,不熟悉的东西。摘抄与互联网各处。

代码语言:javascript
复制
"^[0-9]*[1-9][0-9]*$"  //正整数
"^-?\d+$"    //整数
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"    //email地址

"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"  //url

/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/   //  年-月-日

/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/   // 月/日/年

"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$"   //Emil

"(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?"     //电话号码

"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$"   //IP地址

Python中也有正则表达式(正则表达式30分钟入门教程)的模块,那就是re,下面就来了解一些我们常用的正则方法:

re.search

代码语言:javascript
复制
    re.search 模式:在字符串中查找匹配的对象,找到第一个后返回,如果没有返回None
    re.search的函数为:re.search(pattern,string,flags)
    相比re.match只匹配开始而言,search会匹配所有,直到找到一个

re.findall

代码语言:javascript
复制
    re.findall 模式:获取字符串中所有匹配的对象
    相比re.search而言会搜寻所有的可匹配对象
代码语言:javascript
复制
3.总结速查表
元字符     含义
.   匹配一个字符(除了换行符\n)
[]  匹配里面一个可选字符
^   匹配词首
$   匹配词尾
{n}     前面的字符重复n次
{n,m}   前面的字符重复从n次到m次
{n,}    前面的字符重复n次到无限次
*   {0,}
+   {1,}
?   {0,1}
[^]     不包含里面内容
\d  [0-9]
\w  [A-Za-z0-9]
(?:pattern)     正向预查的正向匹配,等效于
(?=pattern)     正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern  正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern)    反向预查的反向匹配,匹配前面是pattern的字符串
(?<!pattern)    反向预查的反向不匹配,匹配前面不是pattern的字符串
量词?     非贪婪模式
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.05.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档