首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Python:如何使用re忽略括号中的链接?

Python:如何使用re忽略括号中的链接?
EN

Stack Overflow用户
提问于 2011-09-13 18:00:37
回答 2查看 354关注 0票数 1

守则的有关部分是:

代码语言:javascript
运行
复制
import re
reargs = '<a\s*href=[\'|"](.*?)[\'"].*?>'
link = re.search(reargs,content,flags=re.IGNORECASE)

我正在构建一个爬虫,并且我正在使用的网页在括号中有我不想要的链接,所以它应该是这样的:

福福(连)福连福(福连福)福联福link......and等

EN

回答 2

Stack Overflow用户

发布于 2011-09-13 18:30:20

如果可以有多组嵌套括号,如"((foo)链接)“,我认为正则表达式是不可能的。特别要注意的是,可以在URL中使用括号(如维基百科),因此即使文本本身不包含任何内容,也可能仍然存在嵌套的父类。所以,在一般情况下,我认为这不能用regex来完成。

为了解决这个问题,我假设您最多可以有1层深的括号,并且没有URL包含括号。

您要寻找的正则表达式如下所示:

代码语言:javascript
运行
复制
(\([^\)]*\)|[^\(<])*_link_

其中_link_是一个与链接相匹配的正则表达式(您在问题语句中对其进行了描述,尽管它可能需要一些调整)。总结一下我的正则表达式的第一部分是什么:它匹配0或更多的一个括号语句或一个非链接的非括号字符。现在,使用匹配的back引用(示例中的link.group(2))查找您的URL。

票数 0
EN

Stack Overflow用户

发布于 2011-09-13 18:31:40

一般来说,用regex解析HTML是个坏主意。但是,因为你问了,而且这个一般的问题有其优点(如何忽略你的比赛被括号包围的情况),我会告诉你我的想法。

现在,因为我不知道您的页面看起来是什么样子,所以通常可以通过添加[^x]排除匹配,除非x是您不想要的字符。方括号使其与任何内容匹配,而^排除了以下任何内容。

因此,您可以通过用[^(]foo[^)]包围匹配字符串来排除括号。如果括号之间还有其他字符,则必须分别说明这一点。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7406320

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档