文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用grep或sed从html中筛选出链接？

问如何使用grep或sed从html中筛选出链接？
EN

Ask Ubuntu用户

提问于 2015-04-01 09:22:03

回答 1查看 3.6K关注 0票数 1

我试图从网页的html中筛选与src属性相关的链接。

我使用curl获取html和下面的sed命令来筛选url链接。

curl -s http://www.example.com/ | sed -n '/src/,/jpg/p'

我的想法是过滤出以src开头，以.jpg扩展结束的行。但它不起作用，它打印出整个html。我该怎么做？

sed

command-line

grep

回答 1

Ask Ubuntu用户

回答已采纳

发布于 2015-04-01 10:29:21

尝试以下命令：

curl -s http://www.example.com | grep -Po '(?<=src=")[^"]*(jpg|png)'

解释

来自man grep：

   -o, --only-matching
          Print only the matched (non-empty) parts of a matching line,
          with each such part on a separate output line.
   -P, --perl-regexp
          Interpret PATTERN as a Perl compatible regular expression (PCRE)

查找后面的(?<=src=)断言，在字符串中的当前位置，前面是字符src=。然后，我们将寻找所有的东西，除了以jpg或png结尾的"。

票数 1

页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://askubuntu.com/questions/603894

复制

相似问题

问如何使用grep或sed从html中筛选出链接？
EN

回答 1

Ask Ubuntu用户

解释

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用grep或sed从html中筛选出链接？EN

回答 1

Ask Ubuntu用户

解释

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用grep或sed从html中筛选出链接？
EN