如有以下文件html.html:
想要提取全部标签内的文本,可使用如下Python代码:
import re
with open("html.html",'rU') as strf:
....str = strf.read()
res = r'(?).*?(?=)'
li = re.findall(res,str)
with open("new.txt","w") as wstr:
....for s in li:
........wstr.write(s)
........wstr.write(" ")
........print(s,' ')
正则表达式r'(?).*?(?=)中括号部分属于向后向前查找,相当于字符串作为边界进行查找。
运行后会将标签内的文本提取到文件new.txt:
来源网络,侵权联系删除
领取专属 10元无门槛券
私享最新 技术干货