使用sed或awk从html页面中提取网址的最简单方法

使用sed或awk从HTML页面中提取网址的最简单方法是使用正则表达式。以下是一个使用sed命令的示例：

curl -s http://example.com | sed -nE 's/.*<a.*href="([^"]+)".*/\1/p'

这个命令会从http://example.com获取HTML内容，然后使用sed命令提取所有的网址。

使用awk命令的示例：

curl -s http://example.com | awk -F '"' '/<a/{print $2}'

这个命令也会从http://example.com获取HTML内容，然后使用awk命令提取所有的网址。

这些命令都会输出HTML页面中的所有网址。请注意，这些命令可能无法处理所有情况，因为HTML页面可能包含各种不同的格式和编码。在实际应用中，您可能需要使用更复杂的工具来提取网址，例如Python的BeautifulSoup库或JavaScript的DOM解析器。

仅使用sed或awk从html页面提取urls的最简单方法

、、、、

我想从html文件的锚标签中提取URL。这需要在BASH中使用SED/AWK来完成。请不要使用perl。做这件事最简单的方法是什么？

浏览 2提问于2009-12-10得票数 62

3回答

使用尾在最后一个值之前获取值的任何方法(或不知道行总数的其他值)

我使用尾从文件中获取有限的行，但现在我试图抓取的不是最后一行，而是以前的(或任何任意数字，从底部开始)。 Tail -n 1将返回最后一个条目，但是如何提取不同的数字，只知道与最后一个条目的距离？在大多数情况下，我需要最后的2，所以我做了一个tail -n 2，我抓住他们，但如果我可以得到一个条目，指定多少位置从底部。我正在研究sed和awk；但

浏览 1提问于2014-04-23得票数 2

回答已采纳

1回答

有没有办法将grep -v和grep -A结合起来？

、

是否有一种方法，无论是使用grep还是其他什么方式，(实际上)将grep -v和grep -A结合起来？也就是说，不要在字符串之后包含x行的所有内容，而是排除所有内容。快速提醒那些忘记了他们的grep开关的人： (是的，我知道cat在这里是不必要的。但是，当您将许多grep语句串在一起这样做时，我发现它<e

浏览 0提问于2011-07-23得票数 2

回答已采纳

5回答

在普通bash中使用regexp提取子字符串

、

我正在尝试使用bash从字符串中提取时间，但我很难弄清楚。US/Central - 10:26 PM (CST)preg_mat

浏览 8提问于2012-11-14得票数 118

回答已采纳

3回答

提取文件中两个分隔符之间的文本并写入给定的文件名

、、、、

我希望能够从我的代码中提取代码片段，以便进行文档记录。每次编译代码时，我都可以做到这一点，而且这是保持代码和文档(至少是代码片段)最新的一种简单方法。所以我想要一个包含如下内容的文件source.cc：[code]显然，在一个文件中可能有多个这样的文件。要点是，我想界定一个代码区域(我不熟悉语法)，以及一个文件名来

浏览 14提问于2018-08-21得票数 1

回答已采纳

3回答

将文本追加到文件中，不换行

、、、、

在Linux机器上，我有如下I列表：108.171.207.62108.171.246.87107.6.38.55 or 108.171.244.138 or我在sed或awk中试验过的每一个实现都给出了不正确的结果，因为它总是试图在奇怪的地方换行

浏览 1提问于2013-06-21得票数 0

回答已采纳

2回答

从任意文件中剥离电子邮件地址

、、

从大型文件集中获取user@host.com组合的最佳方法是什么？谢谢。

浏览 2提问于2013-05-01得票数 0

8回答

提取bash中两个字符之间的字符串

、、、

我有一个格式如下的字符串[playing] #36/37 1:04/4:05 (26%)现在，从上面的字符串中，我需要从#36/37中提取36。我做的第一件事是从第二行提取#36/

浏览 3提问于2012-07-08得票数 5

回答已采纳

2回答

使用shell脚本删除第一个文本

、、、、

请有人帮助我使用这个bash脚本，假设我有很多带有url的文件，如下：https://example.com/x/y9kZvVp1k_Q/myfilename.zip但是，由于文本是随机的，这意

浏览 0提问于2016-04-23得票数 0

4回答

如何删除bash脚本的特定符号

、、、、

我有一个bash脚本，在那里我可以使用磁盘，例如60%。如何删除%符号？使用grep还是awk？

浏览 0提问于2011-08-23得票数 8

回答已采纳

4回答

如何使用sed* AWK提取开始和结束模式之间的字符串？*

、

我有html文件，我要在模式之间提取字符串。该文件如下所示：<span>pouyamannequin.com</span>sed -e 's/>!$.*$>.com<\/span>/\1/' domain.txt 但

浏览 0提问于2020-03-26得票数 0

4回答

如何显示ls命令的第n个结果？

、

我使用这个命令来显示目录中文件的第一个结果。我的简单问题是，如何修改这个命令以显示nth结果？谢谢!

浏览 0提问于2015-07-07得票数 17

回答已采纳

1回答

提取子字符串与字符串中数字的第一次出现之间的模式

、、

3gsjcgd.xc-linux-x86-64-Release-devel.r我想提取组件名称这就是我试过的：do

浏览 2提问于2014-05-21得票数 5

回答已采纳

2回答

提取文本beetwen两个单词，并在特定行中

、、、

我正在尝试创建一个linux bash script来下载一个html页面，从这个html页面中提取数字并将它们赋给一个变量。html页面有几行代码，但我对以下几行很感兴趣： <td width="16"><img src="img/ico_message.gif"></td> <td widthwidth="13

浏览 0提问于2018-06-28得票数 0

3回答

如何使用sed或awk正确查找和替换多行文本？

、

当试图替换以下文本时，我会收到错误： fallback "sysdefault" show on }/ type plug 未找到匹配：(当前的PulseAudio声音服务器)\n }/类型插件\n slav

浏览 3提问于2020-01-07得票数 0

回答已采纳

2回答

如何使用sed从十六进制文件中提取数据

我想使用sed从十六进制文件中提取数据，但是我不希望任何十六进制格式输出到屏幕上。我想从A到Z或a到z中提取出最小长度为5个字符、最大长度为25个字符的任何单词有什么方法可以用sed和awk来完成吗？

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

使用sed脚本生成awk脚本

、、

我正在寻找一种使用sed生成awk文件的方法。现在的问题是，我有一个大约有1000行单词的文本文件，我希望能够从文本文件中提取每一行，并将提取的单词用作awk文件中的正则表达式。例如，文本文件将为：Toby Class3Sarah Class1 Jeremiah C

浏览 1提问于2018-08-19得票数 0

1回答

使用shell脚本中的Perl样式正则表达式提取匹配组内容的最佳方法

、、、、

我的任务是使用Perl样式(或至少扩展)正则表达式从给定文档中提取一些数据。，例如：^.*: ([0-9.]+) value .* - (\d+) value$：在UNIX脚本中提取数据的最佳方法是什么？各种实现都添加了扩展，但它们通常是不兼容的：GNU 使用-r或--regexp-extended选项在扩展模式下切换，BSD sed (也是在Mac上)将扩展正则表达式用于b

浏览 2提问于2011-12-17得票数 3

回答已采纳

1回答

如何打印匹配行、后面3行以及匹配URL

、

我试图以文本形式从SMTP邮件中提取信息，即：href="http://URL1"><imgsrc="http://URL2"由于标题较长，因此故意截断示例，但这是针对示例的。我尝试过<

浏览 1提问于2019-10-13得票数 0

回答已采纳

4回答

如何使'cut‘命令将相同的后续分隔符视为一个？

、、、

我正在尝试从基于列的、“空格”调整的文本流中提取某个(第四个)字段。我尝试以以下方式使用cut命令：不幸的是，cut没有将多个空格作为一个分隔符。我可以用管子穿过awk或sed sed -E "s/[[:space:]]+/

浏览 6提问于2010-11-10得票数 324

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用sed或awk从html页面中提取网址的最简单方法

相关·内容

仅使用sed或awk从html页面提取urls的最简单方法

使用尾在最后一个值之前获取值的任何方法(或不知道行总数的其他值)

有没有办法将grep -v和grep -A结合起来？

在普通bash中使用regexp提取子字符串

提取文件中两个分隔符之间的文本并写入给定的文件名

将文本追加到文件中，不换行

从任意文件中剥离电子邮件地址

提取bash中两个字符之间的字符串

使用shell脚本删除第一个文本

如何删除bash脚本的特定符号

如何使用sed* AWK提取开始和结束模式之间的字符串？*

如何显示ls命令的第n个结果？

提取子字符串与字符串中数字的第一次出现之间的模式

提取文本beetwen两个单词，并在特定行中

如何使用sed或awk正确查找和替换多行文本？

如何使用sed从十六进制文件中提取数据

使用sed脚本生成awk脚本

使用shell脚本中的Perl样式正则表达式提取匹配组内容的最佳方法

如何打印匹配行、后面3行以及匹配URL

如何使'cut‘命令将相同的后续分隔符视为一个？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐