本例不具体讲述正则的编写,只讲在python的调用
import re
#替换掉html中的标签
def RemoveHttpStr(val):
return re.sub('<[^>]*>', '', val)
这里会返回一个数组,里面包含了你要提取的group。可以自己试试。
def ExtractData(regex, content):
r = None
p = re.compile(regex)
m = p.findall(content)
if m:
r = m
return r
import re
errHTML ='''
username:yzh
userqq:123
username:lsl
userqq:456
'''
p = re.compile("username:(.)\suserqq:(?P<qq>\d)",re.IGNORECASE)
m = p.finditer(errHTML)
if m:
for i in m:
print i.group("qq")