我最近刚开始阅读AWK编程语言,目的是用它创建一个编程语言解析器,因为它通常被用作文本处理器和/或用于模式匹配。我有这样的想法:“如果这种语言用于模式匹配和文本处理,那么它不能用于处理特定语句的源文件,比如for / if / while关键字和短语,然后执行给定的操作,并将其传递给lexer或类似的东西吗?”
我想将一个大的文本文档(.txt)拆分为多个文档。以前有人问过这个问题,但我认为,在我的例子中,需要一个特定的RegEx来完成这个任务。 我已经尝试了几个“分割”软件,但我还没有找到一个令人满意的解决方案。文本文件是西班牙议会中的一堆辩论。正文分为政策计划(我不确定这是否是惯用的),我想按计划将其分成一个文件。 有趣的是,每个计划在下一个表单中都有自己的标题: - DEL GRUPO PARLAMENTARIO CATALÁN (CONVERGÈNCIA I UNIÓ), REGULADORA DE LOS HORARIOS COMERCIALES. (Número de expedient