守则的有关部分是:
import re
reargs = '<a\s*href=[\'|"](.*?)[\'"].*?>'
link = re.search(reargs,content,flags=re.IGNORECASE)
我正在构建一个爬虫,并且我正在使用的网页在括号中有我不想要的链接,所以它应该是这样的:
福福(连)福连福(福连福)福联福link......and等
发布于 2011-09-13 18:30:20
如果可以有多组嵌套括号,如"((foo)链接)“,我认为正则表达式是不可能的。特别要注意的是,可以在URL中使用括号(如维基百科),因此即使文本本身不包含任何内容,也可能仍然存在嵌套的父类。所以,在一般情况下,我认为这不能用regex来完成。
为了解决这个问题,我假设您最多可以有1层深的括号,并且没有URL包含括号。
您要寻找的正则表达式如下所示:
(\([^\)]*\)|[^\(<])*_link_
其中_link_
是一个与链接相匹配的正则表达式(您在问题语句中对其进行了描述,尽管它可能需要一些调整)。总结一下我的正则表达式的第一部分是什么:它匹配0或更多的一个括号语句或一个非链接的非括号字符。现在,使用匹配的back引用(示例中的link.group(2)
)查找您的URL。
发布于 2011-09-13 18:31:40
一般来说,用regex解析HTML是个坏主意。但是,因为你问了,而且这个一般的问题有其优点(如何忽略你的比赛被括号包围的情况),我会告诉你我的想法。
现在,因为我不知道您的页面看起来是什么样子,所以通常可以通过添加[^x]
排除匹配,除非x
是您不想要的字符。方括号使其与任何内容匹配,而^
排除了以下任何内容。
因此,您可以通过用[^(]
foo[^)]
包围匹配字符串来排除括号。如果括号之间还有其他字符,则必须分别说明这一点。
https://stackoverflow.com/questions/7406320
复制相似问题