说说正则表达式的使用

今日分享:正则表达式

一:正则表达式的定义及用途

正则表达式是一种特殊的字符串,字符串中的每个字符都含有特定的意义。使用者通过将正则中不同的字符组合成不同的字符串,以便用它来匹配(筛选或提取)文本中的目标文本。

其用途主要就是匹配文本。就编写Python爬虫来说,当获取到目标网页中的链接文本时,要想按照我们的需要提取出数据,就可以通过比对要获取的目标数据来编写相对应的正则表达式。

二:正则表达式的基本语法

在这里为使大家详细了解正则的基础知识,小编从网上搜索了一个较为详细的知识图,小编就不在重复造轮子了

图片来源于网络,请大家访问图片右下角的原创地址

三:正则的优缺点

正则表达式的难点在于复杂多变没有统一格式,也可以这样理解:在每匹配一个目标文本时,都需要重新编写正则表达式,导致工作量很大,这是正则的缺点;其优点在于非常灵活,你可以任意的匹配掉或提取出任一个你想要的文本,前提就是要熟练掌握匹配原则。

四:小编建议

首先大致熟悉正则的基本知识,不必完全记下,当需要使用时在看即可。

其次就是在练习中熟悉掌握匹配原则,为防止一脸懵A ,匹配的难度可以慢慢加深,也就是先匹配少量文本,然后慢慢增加匹配的文本,这样做的好处就是 你可以清除地知道自己所匹配的每一个目标文本,做到运筹帷幄。

如果觉得正则提取文本太麻烦,不要担心,还有别的提取文本的方法,比如也可以用bs4库,相关内容会后续推出。

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏瓜大三哥

直方图操作(三)

直方图操作(三) 之读出电路 顺序读出:即灰度值为0的统计值首先输出,其次是灰度值为1的统计值输出。读出电路如下图 ? 只有当计数完成,并且外部时序申请读出时...

1969
来自专栏云时之间

深度学习与神经网络:制作数据集,完成应用(1)

2194
来自专栏生信小驿站

R 热图绘制heatmap②

1154
来自专栏智能合约

base62编码

8964
来自专栏数据结构与算法

22:因子分解

22:因子分解 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 输入一个数,输出其素因子分解表达式。 输入输入一个整数...

34412
来自专栏深度学习自然语言处理

【python】命令行参数argparse用法详解

prog.py是我在linux下测试argparse的文件,放在/tmp目录下,其内容如下:

1113
来自专栏Laoqi's Linux运维专列

正则扩展练习

grep命令的-P选项: 最典型的用法是,匹配指定字符串之间的字符。 比如,我们想在一句话(Hello,my name is aming.)中匹配中间的一段字符...

4136
来自专栏GopherCoder

Python 强化训练:第二篇

1695
来自专栏尾尾部落

[剑指offer] 构建乘积数组

给定一个数组A[0,1,…,n-1],请构建一个数组B[0,1,…,n-1],其中B中的元素B[i]=A[0]*A[1]*...*A[i-1]*A[i+1]*....

1413
来自专栏C语言及其他语言

【优秀题解】1168题【简单计算】题解

题目描述 有一个n+2个元素a[0], a[1], ..., a[n+1] (n <= 3000, -1000 <= a[i] <=1000)构成的数列. 已...

37210

扫码关注云+社区

领取腾讯云代金券