文章/答案/技术大牛

发布

社区首页 >问答首页 >Python:如何使用re忽略括号中的链接？

问Python:如何使用re忽略括号中的链接？
EN

Stack Overflow用户

提问于 2011-09-13 18:00:37

回答 2查看 354关注 0票数 1

守则的有关部分是：

import re
reargs = '<a\s*href=[\'|"](.*?)[\'"].*?>'
link = re.search(reargs,content,flags=re.IGNORECASE)

我正在构建一个爬虫，并且我正在使用的网页在括号中有我不想要的链接，所以它应该是这样的：

福福(连)福连福(福连福)福联福link......and等

regex

python

回答 2

Stack Overflow用户

发布于 2011-09-13 18:30:20

如果可以有多组嵌套括号，如"((foo)链接)“，我认为正则表达式是不可能的。特别要注意的是，可以在URL中使用括号(如维基百科)，因此即使文本本身不包含任何内容，也可能仍然存在嵌套的父类。所以，在一般情况下，我认为这不能用regex来完成。

为了解决这个问题，我假设您最多可以有1层深的括号，并且没有URL包含括号。

您要寻找的正则表达式如下所示：

(\([^\)]*\)|[^\(<])*_link_

其中_link_是一个与链接相匹配的正则表达式(您在问题语句中对其进行了描述，尽管它可能需要一些调整)。总结一下我的正则表达式的第一部分是什么:它匹配0或更多的一个括号语句或一个非链接的非括号字符。现在，使用匹配的back引用(示例中的link.group(2))查找您的URL。

票数 0

Stack Overflow用户

发布于 2011-09-13 18:31:40

一般来说，用regex解析HTML是个坏主意。但是，因为你问了，而且这个一般的问题有其优点(如何忽略你的比赛被括号包围的情况)，我会告诉你我的想法。

现在，因为我不知道您的页面看起来是什么样子，所以通常可以通过添加[^x]排除匹配，除非x是您不想要的字符。方括号使其与任何内容匹配，而^排除了以下任何内容。

因此，您可以通过用[^(]foo[^)]包围匹配字符串来排除括号。如果括号之间还有其他字符，则必须分别说明这一点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7406320

复制

相似问题

问Python:如何使用re忽略括号中的链接？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python:如何使用re忽略括号中的链接？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python:如何使用re忽略括号中的链接？
EN