我必须使用bash (仅)从下面输入的html文本中提取几个字段。
HTML输入
<a href="/something/somemorething/page?id=1234425">SOMETEXT</a>我从上述输入中提取id值和SOMETEXT。
我希望grep使用一些regex应该锻炼。对于id_value,我使用以下正则表达式
"id=[0-9]*"这给了我正确的结果。
grep -o 'id=[0-9]*' index.html | head -n 5但是,我不确定在下一个</a>之前应该使用什么样的正则表达式来获取文本。
提前谢谢。
发布于 2015-08-05 05:37:02
您在OP ("id=[0-9]*")中的正则表达式看起来在您的情况下是有效的,但更好的方法是在锚标记本身上磨练。
下面是提取id值的正则表达式:
<a.*?id=(\d.*?)">下面是提取<a>标记中内容的正则表达式:
<a.*?">(.*?)<\/a>https://stackoverflow.com/questions/31824118
复制相似问题