我正在尝试解析一个大型数据文件。在该文件中,有3行或4行的数据组,由空行分隔。例如:
Data Group One Name
Data Group One Datum 1
Data Group One Datum 2
Data Group One Datum 3
Data Group Two Name
Data Group Two Datum 1
Data Group Two Datum 2
Data Group Three Name
Data Group Three Datum 1
Data Group Three Datum 2
Data Group Three Datum 3
我正在寻找一种快速的方法来提取所有具有4线的数据组(忽略所有3线组)。有没有一种方法可以用正则表达式在一个文本文件中找到所有4行代码?或任何其他建议的方法(可能使用awk或sed)来完成此操作?
发布于 2011-08-04 23:40:24
不是很漂亮,但这应该可以工作:
/[^\n]+\n[^\n]+\n[^\n]+\n[^\n]+(?!(?:\n[^\n]+))/
或
/(?:[^\n]+\n){3}[^\n]+(?!(?:\n[^\n]+))/
基本上,您要查找一个或多个非换行符,然后是换行符,一个或多个非换行符,然后是换行符,依此类推。
编辑:修复了我的正则表达式,它匹配超过4行的块。我为另一行文本添加了一个负向先行。
发布于 2011-08-04 23:56:32
我还没有测试过它,但这应该适用于awk脚本:
#!/bin/awk -f
BEGIN {
count = 0;
lines = "";
}
{
if ($0 != "") {
lines = lines \n $0;
count++;
} else if (count == 4) {
print lines;
}
if ($0 == "") {
count = 0;
lines = "";
}
}
发布于 2011-08-04 23:40:44
您可以绕过换行符-伪代码示例:
\n\n 1-or-more-characters \n 1-or-more-characters \n 1-or-more-characters \n 1-or-more-characters \n\n
https://stackoverflow.com/questions/6944299
复制相似问题