我怎样才能在一个大的(700mb)和“非格式化”的txt文件上计算一个随机的“标题”?
“标题”始终是这样的格式:\n + random title + \n
。但是,多个\n
可以连续出现。
我正在寻找一个解决方案,它使用Notepad++或任何其他编辑器,只是为了计算结果数量(例如使用正则表达式),或sed
代码来提取这些标题,或任何语言代码的任何其他解决方案(即。Python、PHP等)!
示例:
This is a random Title
Text Text Text Text Text
Text Text Text Text Text
This is a another random Title
Text Text Text Text Text
Text Text Text Text Text
Text Text Text Text Text
Text Text Text Text Text
This is a another another random Title
Text Text Text Text Text
Text Text Text Text Text
Text Text Text Text Text
This is a another another another random Title
Text Text Text Text Text
Text Text Text Text Text
Text Text Text Text Text
发布于 2019-03-21 23:52:21
$ awk -v RS= -F'\n' 'NF==1{c++} END{print c+0}' file
4
上面的代码只是打印出在任意数量的空行之间有一个非空行的次数。
https://stackoverflow.com/questions/55269203
复制相似问题