问有人能推荐一个匹配4个连续文本行的正则表达式模式吗？
EN

Stack Overflow用户

提问于 2011-08-04 23:34:04

回答 4查看 1.6K关注 0票数 0

我正在尝试解析一个大型数据文件。在该文件中，有3行或4行的数据组，由空行分隔。例如：

Data Group One Name
Data Group One Datum 1
Data Group One Datum 2
Data Group One Datum 3

Data Group Two Name
Data Group Two Datum 1
Data Group Two Datum 2

Data Group Three Name
Data Group Three Datum 1
Data Group Three Datum 2
Data Group Three Datum 3

我正在寻找一种快速的方法来提取所有具有4线的数据组(忽略所有3线组)。有没有一种方法可以用正则表达式在一个文本文件中找到所有4行代码？或任何其他建议的方法(可能使用awk或sed)来完成此操作？

data-processing

regex

pattern-matching

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-08-04 23:40:24

不是很漂亮，但这应该可以工作：

/[^\n]+\n[^\n]+\n[^\n]+\n[^\n]+(?!(?:\n[^\n]+))/

或

/(?:[^\n]+\n){3}[^\n]+(?!(?:\n[^\n]+))/

基本上，您要查找一个或多个非换行符，然后是换行符，一个或多个非换行符，然后是换行符，依此类推。

编辑:修复了我的正则表达式，它匹配超过4行的块。我为另一行文本添加了一个负向先行。

票数 1

Stack Overflow用户

发布于 2011-08-04 23:56:32

我还没有测试过它，但这应该适用于awk脚本：

#!/bin/awk -f
BEGIN {
        count = 0;
        lines = "";
}
{    
    if ($0 != "") {
        lines = lines \n $0;
        count++;
    } else if (count == 4) {
        print lines;       
    }
    if ($0 == "") {
        count = 0;
        lines = "";
    }
}

票数 1

Stack Overflow用户

发布于 2011-08-04 23:40:44

您可以绕过换行符-伪代码示例：

\n\n 1-or-more-characters \n 1-or-more-characters \n 1-or-more-characters \n 1-or-more-characters \n\n

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6944299

复制

相似问题

问有人能推荐一个匹配4个连续文本行的正则表达式模式吗？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有人能推荐一个匹配4个连续文本行的正则表达式模式吗？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有人能推荐一个匹配4个连续文本行的正则表达式模式吗？
EN