在说正则表达式之前,先说以以下网页结构 根据网站的组成结构,网站可以分为以下两种
对于爬虫而言:
不论静态还是动态网站,HTML页面"隐藏"有价值的数据信息
使用网络爬虫提取信息,需要了解页面的HTML标签使用和分布情况
一个完整的HTML文件包括:
一般HTML文件的书写遵循以下格式:
HTML的标签数:
HTML文件的内容均包含在标签中:
借助Python网络库,构建的爬虫可以抓取HTML页面的数据 从抓取的页面数据中提取有价值的数据,有以下方式:
面对复杂的HTML页面,经常需要从中抽取需要的信息,比如身份证号等 使用简介的字符串表达式,来去匹配这些信息:
正则表达式有独立的语法以及处理引擎,在支持正则表达式的语言中,正则表达式的语法一致 不同的编程语言实现支持的语法数量不同:
正则表达式语言由两种基本字符类型组成
如果要匹配重复的字符串,使用小括号()把目标字符串包裹起来
分组可以分为两种形式:
eg:匹配0到100范围内的整数
re是专门用于处理正则表达式的Python模块,通常有以下几个函数:
下面依次进行说明