首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用grep或sed从html中筛选出链接?

如何使用grep或sed从html中筛选出链接?
EN

Ask Ubuntu用户
提问于 2015-04-01 09:22:03
回答 1查看 3.6K关注 0票数 1

我试图从网页的html中筛选与src属性相关的链接。

我使用curl获取html和下面的sed命令来筛选url链接。

代码语言:javascript
复制
curl -s http://www.example.com/ | sed -n '/src/,/jpg/p'

我的想法是过滤出以src开头,以.jpg扩展结束的行。但它不起作用,它打印出整个html。我该怎么做?

EN

回答 1

Ask Ubuntu用户

回答已采纳

发布于 2015-04-01 10:29:21

尝试以下命令:

代码语言:javascript
复制
curl -s http://www.example.com | grep -Po '(?<=src=")[^"]*(jpg|png)'

解释

来自man grep

代码语言:javascript
复制
   -o, --only-matching
          Print only the matched (non-empty) parts of a matching line,
          with each such part on a separate output line.
   -P, --perl-regexp
          Interpret PATTERN as a Perl compatible regular expression (PCRE)

查找后面的(?<=src=)断言,在字符串中的当前位置,前面是字符src=。然后,我们将寻找所有的东西,除了以jpg或png结尾的"

票数 1
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/603894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档