对于每一行(doc_id),我希望在文本列中重复n次的两个字符串之间提取一个子字符串(在我的例子中是政府部门的名称)。of Health \n Matters \n Blah blah blah \n PART 5 Department of Sport \n Matters \n Blah blah"))
我想说的是Forestry&
这是一个已处理的html文件,在python列表变量中。它也有一些换行符,所以文本是多行的。列表没有被标记。在边角括号(html标记)中有多组"TEXT“和"/TEXT”。我想提取这些匹配对之间的文本,并将它们附加到另一个列表中。感谢专家的帮助。
with gzip.open(.....)/行使<TEXT>和&l